引言

做 AI 开发的朋友,最近可能都有一个感受:模型越来越强,但评测越来越贵

以前跑个 MMLU 基准,几百美元搞定;现在评一个 Agent 系统,随便就要几千甚至几万美元。这不是错觉——最近有一个团队(EvalEval Coalition)详细拆算了当前主流 AI 评测的成本,得出的结论相当震撼:评测成本已经和训练成本接近,部分场景甚至超过了训练本身

今天这篇文章,我就来给大家梳理一下这篇 EvalEval Coalition 的博文 的核心内容,看看 AI 评测成本到底涨成什么样了,以及这对我们意味着什么。

从静态评测到 Agent 评测:成本结构的根本变化

静态评测:便宜,可压缩

回想 2022 年 Stanford 发布 HELM 的时候,他们报告过每个模型的评测成本从 $85(小型模型)到 $10,926(最大模型) 不等。对于开源模型,还要额外加上 540 到 4,200 GPU 小时。

好消息是,静态评测的成本是可以大幅压缩的。研究发现:

  • 100×~200× 的计算量压缩 可以保持几乎相同的模型排序
  • tinyBenchmarks 把 MMLU(14,000 题)压缩到 100 题,误差仅约 2%
  • Open LLM Leaderboard 从 29,000 条降到了 180 条
  • Anchor Points 证明只需 1~30 个样本就能对 87 个模型/提示组合排序

这就是静态评测的核心特点:模型差异往往集中在少数题目上,排序可以在大幅降采样后依然保持稳定

Agent 评测:贵,难以压缩

但问题是,当基准从「做一道题」变成「跑一个 Agent 完成任务」,成本结构完全变了。

Agent 评测本质上是多轮交互 + 工具调用 + 长轨迹追踪,每个任务可能消耗数万到数十万 token。而且:

  • 模型 × 脚手架(scaffold)× token 预算 三者乘在一起,成本差异巨大
  • 同一个任务,不同 Agent 配置的成本可以差出 10 倍
  • 同一 benchmark 内,最便宜和最贵的配置差距可达 4 个数量级

更糟糕的是,静态评测的压缩技巧对 Agent 评测基本失效。Mid-difficulty 过滤(中低难度任务筛选)只能做到 2×~3.5× 的压缩,远不及静态评测的 100×~200×。

原因很简单:Agent 评测中每个任务都是一条独立的长轨迹,无法像静态题库那样通过采样来代表整体。

主流 Agent 评测成本全景

我们直接看数字。以下是各主流基准的评测成本(单次运行):

基准类型单次成本(USD)评测内容
GAIAAgent,多模态$7.80 ~ $2,829通用 AI 助手任务
SWE-bench Verified MiniAgent,代码$4 ~ $1,600真实 GitHub Issue
Online Mind2WebAgent,网页$5 ~ $1,610网页导航任务
CORE-Bench HardAgent,复现$2 ~ $510论文复现
SciCodeAgent,科学$0.12 ~ $625科学编程任务
TAU-bench AirlineAgent$0.31 ~ $180航空公司客服
PaperBench(完整协议)科学,复现~$9,500ICML 论文完整复现
The Well(每架构)SciML,训练~$2,400科学机器学习

其中最有代表性的案例是 Holistic Agent Leaderboard(HAL):他们在 9 个 benchmark × 9 个模型上跑了 21,730 次 rollout,总成本约 $40,000。而这只是单次运行——如果要做可靠评测(比如 k=8 重复),成本会飙到 $320,000

另一个极端案例是 PaperBench:评测 20 篇 ICML Oral/Spotlight 论文的完整复现,每篇需要 12 小时 A10 GPU + LLM 评判,总成本约 $9,500 一次。如果是 Code-Dev 版本(跳过执行),成本降到 ~$4,200。

训练 in the Loop:评测成本彻底逆转

更极端的情况是某些基准本身就需要训练模型

The Well:评测比训练贵 100 倍

The Well 包含 16 个科学机器学习数据集,涵盖流体动力学、等离子体物理、生物系统等。一个标准运行需要:

  • 5 种学习率 × 16 个数据集 × 4 种架构 × 12 小时 H100 = 3,840 H100 小时,约 $9,600
  • 评估一个新架构也要 960 H100 小时,约 $2,400

对比一下:训练一个神经算子只需要一次 12 小时 H100 运行,但评测需要 80 次训练。这就是科学机器学习领域的现实:评测计算量比训练计算量高约两个数量级,彻底颠覆了深度学习时代「训练贵、评测便宜」的旧认知。

MLE-Bench:Kaggle 比赛也是烧钱大户

OpenAI 的 MLE-Bench 把 Agent 放到 75 个 Kaggle 竞赛里跑。每个 Agent 尝试要 24 小时 A10 GPU,加上 o1-preview API 消耗(127.5M 输入 token + 15M 输出 token per seed)。单次 seed 的成本:

  • GPU 成本:75 × 24h × $1.50/A10h = $2,700
  • API 成本:约 $2,800
  • 合计:~$5,500 per seed

如果要跑 3 seeds × 6 个模型,总成本轻松破 $100,000

ResearchGym:让 Agent 做真实 ML 研究

这个基准更狠:让 Agent 实际做 ML 研究——提假设、训练模型、超过原作者基线。预算限制在 $10 API + 12~24 小时单 GPU × 任务。一次完整通过(5 tasks × 24h × 3 seeds)≈ 360 GPU 小时 per Agent。

成本盲区:leaderboard 正在误导整个领域

这里有一个严重的问题:大多数 leaderboard 只报告准确率,不报告成本

这就催生了一个非常不健康的激励机制:研究人员可以理性地往一个问题上堆 token,直到数字上涨。花更多钱 → 准确率更高 → leaderboard 排名更高,但没有人告诉你这个代价是什么。

更讽刺的是,HAL 的分析发现了一个反直觉的事实:

更高的推理投入在大多数运行中反而降低了准确率

也就是说,多花钱不一定能买到更好的结果。

解决方案是使用 Pareto 前沿(准确率 vs 成本双维度排名),但大多数 leaderboard 还没有采用这个方式。

可靠性和重复性:成本的另一个乘数

还有一个问题被很多人忽视:单次运行的测量结果往往统计可信度很低

拿 τ-bench 来说,单次运行准确率 60%,但连续跑 8 次,一致性评分可能掉到 25%。也就是说,Agent 的表现并没有那么稳定。

HAL 内部分析还发现了更多问题:

  • SciCode 和 CORE-Bench:Agent 几乎无法完成一次没有任何工具调用失败的运行
  • AssistantBench 和 CORE-Bench:约 40% 的运行出现环境错误
  • 失败任务中:超过 60% 的情况 Agent 在最终答案中违反了 benchmark 的明确指令

要想得到统计上可信的 HAL 级别评测(k=8 重复),$40,000 的单次成本要乘以 8,变成 $320,000。PaperBench 从 $9,500 变成 $75,000+。The Well 的多 seed 协议则需要数千 H100 小时。

学术界正在被排斥在外

这是最令人担忧的部分。

当前 AI 评测的成本已经高到让很多研究机构无法独立验证前沿模型的能力:

  • 单次 GAIA 运行可以超过一个研究生全年的差旅预算
  • PaperBench 单次评测约 $9,500
  • 一个 3-seed × 6-model 的研究对比需要 $150,000+

换句话说:「跑一次 benchmark,报告一个准确率数字」这种方式已经几乎没有严谨性可言了。要做靠谱的评测,需要多次运行 + 统计验证,但这样做成本直接翻几倍。

这就形成了一个危险的集中化趋势:只有能烧得起钱的实验室(也就是开发模型的实验室)才能做可靠的外部评测。

解决方案:共建评估数据,避免重复烧钱

文章提出了一个关键洞察:同一套评估被反复付费运行,但没有人把结果共享出来

典型场景:

  1. 前沿实验室付 $40,000 跑 HAL sweep
  2. 学术团队付钱做部分复现
  3. 审计机构付钱评估特定模型版本
  4. 记者付钱 spot-check

这四方的成本加在一起,可能已经是原始成本的 4 倍,但没有人共享中间结果,因为大家只报告一个 PDF 里的准确率数字。

解决方案是标准化文档格式 + 共享评估数据。EvalEval Coalition 的 Every Eval Ever 项目正在做这件事:提供统一的数据 schema,支持 HELM、lm-eval-harness、Inspect AI 等主流评测框架的转换,社区已经在 Hugging Face 上托管了来自数十个贡献者的评测结果。

核心逻辑是:如果每个 $9,500 的 PaperBench 运行都能导出完整的 grading trace,下一个团队就不用再跑基线,可以把预算花在新的扰动实验上。只要复用率达到 2×,节约的资金就超过所有压缩算法的总和。

总结:评估已经成为 AI 发展的第一性约束

AI 评测的成本结构已经发生了根本性变化:

过去:训练 >> 评测
现在:前沿 Agent 评测 ≈ 训练 >> 普通评测
未来:某些场景 评测 >> 训练

这带来了一系列严肃挑战:

  1. 评估的可及性:学术界、AI Safety 机构、媒体越来越难独立验证前沿模型能力
  2. Leaderboard 的误导性:成本-blind 的排名奖励浪费而非效率
  3. 可靠性代价高昂:统计可信的评测需要重复运行,成本翻倍
  4. 数据孤岛:重复付费,成果却不共享

但解决方案也很清晰:共享评估数据、统一文档格式、推动成本透明化。这不只是一个工程问题,更是一个治理问题——谁能付得起评估费用,谁就能写 leaderboard,而这个权力不应该只掌握在模型开发商手里。


参考资料AI evals are becoming the new compute bottleneck