AI 评估正在成为新的算力瓶颈：一文读懂 Agent 评测成本现状

引言

做 AI 开发的朋友，最近可能都有一个感受：模型越来越强，但评测越来越贵。

以前跑个 MMLU 基准，几百美元搞定；现在评一个 Agent 系统，随便就要几千甚至几万美元。这不是错觉——最近有一个团队（EvalEval Coalition）详细拆算了当前主流 AI 评测的成本，得出的结论相当震撼：评测成本已经和训练成本接近，部分场景甚至超过了训练本身。

今天这篇文章，我就来给大家梳理一下这篇 EvalEval Coalition 的博文的核心内容，看看 AI 评测成本到底涨成什么样了，以及这对我们意味着什么。

从静态评测到 Agent 评测：成本结构的根本变化

静态评测：便宜，可压缩

回想 2022 年 Stanford 发布 HELM 的时候，他们报告过每个模型的评测成本从 $85（小型模型）到 $10,926（最大模型） 不等。对于开源模型，还要额外加上 540 到 4,200 GPU 小时。

好消息是，静态评测的成本是可以大幅压缩的。研究发现：

100×~200× 的计算量压缩 可以保持几乎相同的模型排序
tinyBenchmarks 把 MMLU（14,000 题）压缩到 100 题，误差仅约 2%
Open LLM Leaderboard 从 29,000 条降到了 180 条
Anchor Points 证明只需 1~30 个样本就能对 87 个模型/提示组合排序

这就是静态评测的核心特点：模型差异往往集中在少数题目上，排序可以在大幅降采样后依然保持稳定。

Agent 评测：贵，难以压缩

但问题是，当基准从「做一道题」变成「跑一个 Agent 完成任务」，成本结构完全变了。

Agent 评测本质上是多轮交互 + 工具调用 + 长轨迹追踪，每个任务可能消耗数万到数十万 token。而且：

模型 × 脚手架（scaffold）× token 预算 三者乘在一起，成本差异巨大
同一个任务，不同 Agent 配置的成本可以差出 10 倍
同一 benchmark 内，最便宜和最贵的配置差距可达 4 个数量级

更糟糕的是，静态评测的压缩技巧对 Agent 评测基本失效。Mid-difficulty 过滤（中低难度任务筛选）只能做到 2×~3.5× 的压缩，远不及静态评测的 100×~200×。

原因很简单：Agent 评测中每个任务都是一条独立的长轨迹，无法像静态题库那样通过采样来代表整体。

主流 Agent 评测成本全景

我们直接看数字。以下是各主流基准的评测成本（单次运行）：

基准	类型	单次成本（USD）	评测内容
GAIA	Agent，多模态	$7.80 ~ $2,829	通用 AI 助手任务
SWE-bench Verified Mini	Agent，代码	$4 ~ $1,600	真实 GitHub Issue
Online Mind2Web	Agent，网页	$5 ~ $1,610	网页导航任务
CORE-Bench Hard	Agent，复现	$2 ~ $510	论文复现
SciCode	Agent，科学	$0.12 ~ $625	科学编程任务
TAU-bench Airline	Agent	$0.31 ~ $180	航空公司客服
PaperBench（完整协议）	科学，复现	~$9,500	ICML 论文完整复现
The Well（每架构）	SciML，训练	~$2,400	科学机器学习

其中最有代表性的案例是 Holistic Agent Leaderboard（HAL）：他们在 9 个 benchmark × 9 个模型上跑了 21,730 次 rollout，总成本约 $40,000。而这只是单次运行——如果要做可靠评测（比如 k=8 重复），成本会飙到 $320,000。

另一个极端案例是 PaperBench：评测 20 篇 ICML Oral/Spotlight 论文的完整复现，每篇需要 12 小时 A10 GPU + LLM 评判，总成本约 $9,500 一次。如果是 Code-Dev 版本（跳过执行），成本降到 ~$4,200。

训练 in the Loop：评测成本彻底逆转

更极端的情况是某些基准本身就需要训练模型。

The Well：评测比训练贵 100 倍

The Well 包含 16 个科学机器学习数据集，涵盖流体动力学、等离子体物理、生物系统等。一个标准运行需要：

5 种学习率 × 16 个数据集 × 4 种架构 × 12 小时 H100 = 3,840 H100 小时，约 $9,600
评估一个新架构也要 960 H100 小时，约 $2,400

对比一下：训练一个神经算子只需要一次 12 小时 H100 运行，但评测需要 80 次训练。这就是科学机器学习领域的现实：评测计算量比训练计算量高约两个数量级，彻底颠覆了深度学习时代「训练贵、评测便宜」的旧认知。

MLE-Bench：Kaggle 比赛也是烧钱大户

OpenAI 的 MLE-Bench 把 Agent 放到 75 个 Kaggle 竞赛里跑。每个 Agent 尝试要 24 小时 A10 GPU，加上 o1-preview API 消耗（127.5M 输入 token + 15M 输出 token per seed）。单次 seed 的成本：

GPU 成本：75 × 24h × $1.50/A10h = $2,700
API 成本：约 $2,800
合计：~$5,500 per seed

如果要跑 3 seeds × 6 个模型，总成本轻松破 $100,000。

ResearchGym：让 Agent 做真实 ML 研究

这个基准更狠：让 Agent 实际做 ML 研究——提假设、训练模型、超过原作者基线。预算限制在 $10 API + 12~24 小时单 GPU × 任务。一次完整通过（5 tasks × 24h × 3 seeds）≈ 360 GPU 小时 per Agent。

成本盲区：leaderboard 正在误导整个领域

这里有一个严重的问题：大多数 leaderboard 只报告准确率，不报告成本。

这就催生了一个非常不健康的激励机制：研究人员可以理性地往一个问题上堆 token，直到数字上涨。花更多钱 → 准确率更高 → leaderboard 排名更高，但没有人告诉你这个代价是什么。

更讽刺的是，HAL 的分析发现了一个反直觉的事实：

更高的推理投入在大多数运行中反而降低了准确率

也就是说，多花钱不一定能买到更好的结果。

解决方案是使用 Pareto 前沿（准确率 vs 成本双维度排名），但大多数 leaderboard 还没有采用这个方式。

可靠性和重复性：成本的另一个乘数

还有一个问题被很多人忽视：单次运行的测量结果往往统计可信度很低。

拿 τ-bench 来说，单次运行准确率 60%，但连续跑 8 次，一致性评分可能掉到 25%。也就是说，Agent 的表现并没有那么稳定。

HAL 内部分析还发现了更多问题：

SciCode 和 CORE-Bench：Agent 几乎无法完成一次没有任何工具调用失败的运行
AssistantBench 和 CORE-Bench：约 40% 的运行出现环境错误
失败任务中：超过 60% 的情况 Agent 在最终答案中违反了 benchmark 的明确指令

要想得到统计上可信的 HAL 级别评测（k=8 重复），$40,000 的单次成本要乘以 8，变成 $320,000。PaperBench 从 $9,500 变成 $75,000+。The Well 的多 seed 协议则需要数千 H100 小时。

学术界正在被排斥在外

这是最令人担忧的部分。

当前 AI 评测的成本已经高到让很多研究机构无法独立验证前沿模型的能力：

单次 GAIA 运行可以超过一个研究生全年的差旅预算
PaperBench 单次评测约 $9,500
一个 3-seed × 6-model 的研究对比需要 $150,000+

换句话说：「跑一次 benchmark，报告一个准确率数字」这种方式已经几乎没有严谨性可言了。要做靠谱的评测，需要多次运行 + 统计验证，但这样做成本直接翻几倍。

这就形成了一个危险的集中化趋势：只有能烧得起钱的实验室（也就是开发模型的实验室）才能做可靠的外部评测。

解决方案：共建评估数据，避免重复烧钱

文章提出了一个关键洞察：同一套评估被反复付费运行，但没有人把结果共享出来。

典型场景：

前沿实验室付 $40,000 跑 HAL sweep
学术团队付钱做部分复现
审计机构付钱评估特定模型版本
记者付钱 spot-check

这四方的成本加在一起，可能已经是原始成本的 4 倍，但没有人共享中间结果，因为大家只报告一个 PDF 里的准确率数字。

解决方案是标准化文档格式 + 共享评估数据。EvalEval Coalition 的 Every Eval Ever 项目正在做这件事：提供统一的数据 schema，支持 HELM、lm-eval-harness、Inspect AI 等主流评测框架的转换，社区已经在 Hugging Face 上托管了来自数十个贡献者的评测结果。

核心逻辑是：如果每个 $9,500 的 PaperBench 运行都能导出完整的 grading trace，下一个团队就不用再跑基线，可以把预算花在新的扰动实验上。只要复用率达到 2×，节约的资金就超过所有压缩算法的总和。

总结：评估已经成为 AI 发展的第一性约束

AI 评测的成本结构已经发生了根本性变化：

过去：训练 >> 评测
现在：前沿 Agent 评测 ≈ 训练 >> 普通评测
未来：某些场景 评测 >> 训练

这带来了一系列严肃挑战：

评估的可及性：学术界、AI Safety 机构、媒体越来越难独立验证前沿模型能力
Leaderboard 的误导性：成本-blind 的排名奖励浪费而非效率
可靠性代价高昂：统计可信的评测需要重复运行，成本翻倍
数据孤岛：重复付费，成果却不共享

但解决方案也很清晰：共享评估数据、统一文档格式、推动成本透明化。这不只是一个工程问题，更是一个治理问题——谁能付得起评估费用，谁就能写 leaderboard，而这个权力不应该只掌握在模型开发商手里。

参考资料：AI evals are becoming the new compute bottleneck

引言#

从静态评测到 Agent 评测：成本结构的根本变化#

静态评测：便宜，可压缩#

Agent 评测：贵，难以压缩#

主流 Agent 评测成本全景#

训练 in the Loop：评测成本彻底逆转#

The Well：评测比训练贵 100 倍#

MLE-Bench：Kaggle 比赛也是烧钱大户#

ResearchGym：让 Agent 做真实 ML 研究#

成本盲区：leaderboard 正在误导整个领域#

可靠性和重复性：成本的另一个乘数#

学术界正在被排斥在外#

解决方案：共建评估数据，避免重复烧钱#

总结：评估已经成为 AI 发展的第一性约束#

引言