Token烧了1000倍，效果却没更好？揭秘AI编程助手的“隐形账单”

2026-05-10 7805点热度 0人点赞 0条评论

AI Agent正在大规模落地，其中最受关注的就是Claude Code、Codex、Cursor这类Coding Agent。过去一年，这类编程助手在SWE-bench-verified基准上的准确率已飙升至78%以上。

然而，一个普遍的抱怨也随之而来：“为什么它解决问题这么啰嗦？”“我的credits怎么又见底了？”

这背后，暴露了当前Coding Agent的三大问题：

不透明：模型消耗Token的习惯和行为模式像黑箱，不同模型之间的差异也看不清。
不保底：任务执行前，你根本不知道它能不能成功，但无论成败，费用都得照付。
不可预测：人类对问题难度的判断，和实际的Token消耗能对上吗？Agent自己能预估要花多少Token吗？

针对这些问题，来自密歇根大学、斯坦福大学等机构的研究者，基于开源的OpenHands Agent框架，分析了8款前沿模型在SWE-bench-verified上的运行轨迹，首次给出了一份系统性解答。

Agentic Coding的Token账单有多夸张？

研究首先对比了三类代码任务：代码推理、代码多轮对话、以及agentic代码任务。结论是，Coding Agent任务的Token消耗呈指数级增长——其成本结构与我们熟悉的对话、推理任务完全不同。

这源于多轮交互与庞大复杂的上下文管理：海量的代码查询和文件输出不断被塞进对话历史，导致消耗持续膨胀，输入输出比最高可达154:1。

花费越多，效果不一定越好

对SWE-bench-verified中500个问题的统计显示，最贵的任务可比最便宜的任务多消耗约700万Token，而且越贵的任务，消耗的波动性也越大。即便是完全相同的任务，最贵的一次运行花费也可能是最便宜一次的两倍左右。

更关键的是，更多的Token消耗并不能保证更高的准确率。论文按消耗量将任务分组后发现，Token消耗更高的任务组，准确率反而常常更低。对同一任务的多次运行分析也表明：准确率最高点出现在较低开销时，而非开销最高时——当开销超过某个临界点，准确率不升反降。

为什么会这样？分析发现，高开销的运行轨迹中，重复修改和重复查看同一文件的次数显著更多，这表明大量Token其实被消耗在了来来回回的“折腾”上，而非高效的推理和验证。

模型之间的Token效率差异巨大

研究覆盖了八款模型：OpenAI的GPT-5和GPT-5.2，Anthropic的Claude Sonnet-3.7、Sonnet-4、Sonnet-4.5，Google的Gemini-3-Pro Preview，Moonshot AI的Kimi-K2，以及阿里巴巴的Qwen3-Coder-480B。

结果显示，不同模型的Token效率差异是系统性的。例如，GPT-5和GPT-5.2能以较低的Token成本达到不错的准确率，而Kimi-K2和Claude Sonnet-4.5在成本更高的同时，准确率却没有更高。在同样500个任务中，Kimi-K2和Claude Sonnet-4.5比GPT-5多消耗约150万Token。

Token消耗能否提前预测？

研究发现，人类专家对任务难度的判断，与Agent的实际Token消耗之间相关性很弱（Kendall tau = 0.32）。甚至有6.7%的“简单”任务比平均“困难”任务还要贵。

那么，Agent自己能预测吗？实验表明，模型预估开销与实际开销的相关性最高只有0.39（Claude Sonnet-4.5），大多数模型在0.2-0.3之间，且普遍低估实际消耗，尤其是对输入Token的低估。

如何降低你的Token成本？

既然Coding Agent的Token消耗充满随机性且不易预测，无论是人类还是模型自身，距离精确的事前定价都还有很大距离。那么，对于开发者和团队而言，选择一条高性价比、稳定可靠的API通道，就成了控制成本的关键一步。

这里向大家推荐一个正在发福利的API中转站——Aekor（https://api.aekor.com/）。它整合了多个主流模型的API接入，无需分别对接不同的服务商，就能一站式调用GPT-5、Claude Sonnet等高效模型。更吸引人的是，现在注册即可免费领取20美元额度进行试用。与其在不可预测的Token消耗中反复踩坑，不如先用免费的额度测试出最适合自己项目的模型和调用策略，把每一分成本都花在刀刃上。

总结

这项研究首次系统性地揭示了Coding Agent的Token消耗特征：输入Token占绝对主导，问题间和运行间的随机性极高；模型间的效率差异显著；更多Token并不保证更高成功率；而无论是人还是模型，对开销的事前预测能力都相当有限。未来的研究方向，必然包括更高效的Agent架构和更精准的开销预测方法。

本作品采用知识共享署名 4.0 国际许可协议进行许可