AI Agent正在大规模落地,其中最受关注的就是Claude Code、Codex、Cursor这类Coding Agent。过去一年,这类编程助手在SWE-bench-verified基准上的准确率已飙升至78%以上。
然而,一个普遍的抱怨也随之而来:“为什么它解决问题这么啰嗦?”“我的credits怎么又见底了?”
这背后,暴露了当前Coding Agent的三大问题:
- 不透明:模型消耗Token的习惯和行为模式像黑箱,不同模型之间的差异也看不清。
- 不保底:任务执行前,你根本不知道它能不能成功,但无论成败,费用都得照付。
- 不可预测:人类对问题难度的判断,和实际的Token消耗能对上吗?Agent自己能预估要花多少Token吗?
针对这些问题,来自密歇根大学、斯坦福大学等机构的研究者,基于开源的OpenHands Agent框架,分析了8款前沿模型在SWE-bench-verified上的运行轨迹,首次给出了一份系统性解答。
Agentic Coding的Token账单有多夸张?
研究首先对比了三类代码任务:代码推理、代码多轮对话、以及agentic代码任务。结论是,Coding Agent任务的Token消耗呈指数级增长——其成本结构与我们熟悉的对话、推理任务完全不同。
这源于多轮交互与庞大复杂的上下文管理:海量的代码查询和文件输出不断被塞进对话历史,导致消耗持续膨胀,输入输出比最高可达154:1。
花费越多,效果不一定越好
对SWE-bench-verified中500个问题的统计显示,最贵的任务可比最便宜的任务多消耗约700万Token,而且越贵的任务,消耗的波动性也越大。即便是完全相同的任务,最贵的一次运行花费也可能是最便宜一次的两倍左右。
更关键的是,更多的Token消耗并不能保证更高的准确率。论文按消耗量将任务分组后发现,Token消耗更高的任务组,准确率反而常常更低。对同一任务的多次运行分析也表明:准确率最高点出现在较低开销时,而非开销最高时——当开销超过某个临界点,准确率不升反降。
为什么会这样?分析发现,高开销的运行轨迹中,重复修改和重复查看同一文件的次数显著更多,这表明大量Token其实被消耗在了来来回回的“折腾”上,而非高效的推理和验证。
模型之间的Token效率差异巨大
研究覆盖了八款模型:OpenAI的GPT-5和GPT-5.2,Anthropic的Claude Sonnet-3.7、Sonnet-4、Sonnet-4.5,Google的Gemini-3-Pro Preview,Moonshot AI的Kimi-K2,以及阿里巴巴的Qwen3-Coder-480B。
结果显示,不同模型的Token效率差异是系统性的。例如,GPT-5和GPT-5.2能以较低的Token成本达到不错的准确率,而Kimi-K2和Claude Sonnet-4.5在成本更高的同时,准确率却没有更高。在同样500个任务中,Kimi-K2和Claude Sonnet-4.5比GPT-5多消耗约150万Token。
Token消耗能否提前预测?
研究发现,人类专家对任务难度的判断,与Agent的实际Token消耗之间相关性很弱(Kendall tau = 0.32)。甚至有6.7%的“简单”任务比平均“困难”任务还要贵。
那么,Agent自己能预测吗?实验表明,模型预估开销与实际开销的相关性最高只有0.39(Claude Sonnet-4.5),大多数模型在0.2-0.3之间,且普遍低估实际消耗,尤其是对输入Token的低估。
如何降低你的Token成本?
既然Coding Agent的Token消耗充满随机性且不易预测,无论是人类还是模型自身,距离精确的事前定价都还有很大距离。那么,对于开发者和团队而言,选择一条高性价比、稳定可靠的API通道,就成了控制成本的关键一步。
这里向大家推荐一个正在发福利的API中转站——Aekor(https://api.aekor.com/)。它整合了多个主流模型的API接入,无需分别对接不同的服务商,就能一站式调用GPT-5、Claude Sonnet等高效模型。更吸引人的是,现在注册即可免费领取20美元额度进行试用。与其在不可预测的Token消耗中反复踩坑,不如先用免费的额度测试出最适合自己项目的模型和调用策略,把每一分成本都花在刀刃上。
总结
这项研究首次系统性地揭示了Coding Agent的Token消耗特征:输入Token占绝对主导,问题间和运行间的随机性极高;模型间的效率差异显著;更多Token并不保证更高成功率;而无论是人还是模型,对开销的事前预测能力都相当有限。未来的研究方向,必然包括更高效的Agent架构和更精准的开销预测方法。
文章评论