<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/">
  <channel>
    <title>成本分析 on Lucas Ma 的博客</title>
    <link>https://blog.lucasma.cc/tags/%E6%88%90%E6%9C%AC%E5%88%86%E6%9E%90/</link>
    <description>Recent content in 成本分析 on Lucas Ma 的博客</description>
    <generator>Hugo</generator>
    <language>zh-cn</language>
    <copyright>2026 Lucas Ma</copyright>
    <lastBuildDate>Sun, 10 May 2026 22:00:00 +0800</lastBuildDate>
    <atom:link href="https://blog.lucasma.cc/tags/%E6%88%90%E6%9C%AC%E5%88%86%E6%9E%90/index.xml" rel="self" type="application/rss+xml" />
    <item>
      <title>AI 评估正在成为新的算力瓶颈：一文读懂 Agent 评测成本现状</title>
      <link>https://blog.lucasma.cc/posts/ai-eval-costs-bottleneck/</link>
      <pubDate>Sun, 10 May 2026 22:00:00 +0800</pubDate>
      <guid>https://blog.lucasma.cc/posts/ai-eval-costs-bottleneck/</guid>
      <description>&lt;h2 id=&#34;引言&#34;&gt;引言&lt;/h2&gt;
&lt;p&gt;做 AI 开发的朋友，最近可能都有一个感受：&lt;strong&gt;模型越来越强，但评测越来越贵&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;以前跑个 MMLU 基准，几百美元搞定；现在评一个 Agent 系统，随便就要几千甚至几万美元。这不是错觉——最近有一个团队（EvalEval Coalition）详细拆算了当前主流 AI 评测的成本，得出的结论相当震撼：&lt;strong&gt;评测成本已经和训练成本接近，部分场景甚至超过了训练本身&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;今天这篇文章，我就来给大家梳理一下这篇 &lt;a href=&#34;https://evalevalai.com/research/2026/04/29/eval-costs-bottleneck/&#34;&gt;EvalEval Coalition 的博文&lt;/a&gt; 的核心内容，看看 AI 评测成本到底涨成什么样了，以及这对我们意味着什么。&lt;/p&gt;
&lt;h2 id=&#34;从静态评测到-agent-评测成本结构的根本变化&#34;&gt;从静态评测到 Agent 评测：成本结构的根本变化&lt;/h2&gt;
&lt;h3 id=&#34;静态评测便宜可压缩&#34;&gt;静态评测：便宜，可压缩&lt;/h3&gt;
&lt;p&gt;回想 2022 年 Stanford 发布 HELM 的时候，他们报告过每个模型的评测成本从 &lt;strong&gt;$85（小型模型）到 $10,926（最大模型）&lt;/strong&gt; 不等。对于开源模型，还要额外加上 540 到 4,200 GPU 小时。&lt;/p&gt;
&lt;p&gt;好消息是，静态评测的成本是可以大幅压缩的。研究发现：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;100×~200× 的计算量压缩&lt;/strong&gt; 可以保持几乎相同的模型排序&lt;/li&gt;
&lt;li&gt;tinyBenchmarks 把 MMLU（14,000 题）压缩到 100 题，误差仅约 2%&lt;/li&gt;
&lt;li&gt;Open LLM Leaderboard 从 29,000 条降到了 180 条&lt;/li&gt;
&lt;li&gt;Anchor Points 证明只需 1~30 个样本就能对 87 个模型/提示组合排序&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这就是静态评测的核心特点：&lt;strong&gt;模型差异往往集中在少数题目上，排序可以在大幅降采样后依然保持稳定&lt;/strong&gt;。&lt;/p&gt;
&lt;h3 id=&#34;agent-评测贵难以压缩&#34;&gt;Agent 评测：贵，难以压缩&lt;/h3&gt;
&lt;p&gt;但问题是，当基准从「做一道题」变成「跑一个 Agent 完成任务」，成本结构完全变了。&lt;/p&gt;
&lt;p&gt;Agent 评测本质上是&lt;strong&gt;多轮交互 + 工具调用 + 长轨迹追踪&lt;/strong&gt;，每个任务可能消耗数万到数十万 token。而且：&lt;/p&gt;</description>
    </item>
  </channel>
</rss>
