AI 评估正在成为新的算力瓶颈：一文读懂 Agent 评测成本现状

Sun, 10 May 2026 22:00:00 +0800

引言

做 AI 开发的朋友，最近可能都有一个感受：模型越来越强，但评测越来越贵。

以前跑个 MMLU 基准，几百美元搞定；现在评一个 Agent 系统，随便就要几千甚至几万美元。这不是错觉——最近有一个团队（EvalEval Coalition）详细拆算了当前主流 AI 评测的成本，得出的结论相当震撼：评测成本已经和训练成本接近，部分场景甚至超过了训练本身。

今天这篇文章，我就来给大家梳理一下这篇 EvalEval Coalition 的博文的核心内容，看看 AI 评测成本到底涨成什么样了，以及这对我们意味着什么。

回想 2022 年 Stanford 发布 HELM 的时候，他们报告过每个模型的评测成本从 $85（小型模型）到 $10,926（最大模型） 不等。对于开源模型，还要额外加上 540 到 4,200 GPU 小时。

好消息是，静态评测的成本是可以大幅压缩的。研究发现：

这就是静态评测的核心特点：模型差异往往集中在少数题目上，排序可以在大幅降采样后依然保持稳定。

但问题是，当基准从「做一道题」变成「跑一个 Agent 完成任务」，成本结构完全变了。

Agent 评测本质上是多轮交互 + 工具调用 + 长轨迹追踪，每个任务可能消耗数万到数十万 token。而且：