Aekor

Aekor
专注于用户阅读体验的响应式博客主题
  1. 首页
  2. Blog
  3. 正文

Token烧了1000倍,效果却没更好?揭秘AI编程助手的“隐形账单”

2026-05-10 7716点热度 0人点赞 0条评论

AI Agent正在大规模落地,其中最受关注的就是Claude Code、Codex、Cursor这类Coding Agent。过去一年,这类编程助手在SWE-bench-verified基准上的准确率已飙升至78%以上。

然而,一个普遍的抱怨也随之而来:“为什么它解决问题这么啰嗦?”“我的credits怎么又见底了?”

这背后,暴露了当前Coding Agent的三大问题:

  1. 不透明:模型消耗Token的习惯和行为模式像黑箱,不同模型之间的差异也看不清。
  2. 不保底:任务执行前,你根本不知道它能不能成功,但无论成败,费用都得照付。
  3. 不可预测:人类对问题难度的判断,和实际的Token消耗能对上吗?Agent自己能预估要花多少Token吗?

针对这些问题,来自密歇根大学、斯坦福大学等机构的研究者,基于开源的OpenHands Agent框架,分析了8款前沿模型在SWE-bench-verified上的运行轨迹,首次给出了一份系统性解答。

Agentic Coding的Token账单有多夸张?

研究首先对比了三类代码任务:代码推理、代码多轮对话、以及agentic代码任务。结论是,Coding Agent任务的Token消耗呈指数级增长——其成本结构与我们熟悉的对话、推理任务完全不同。

这源于多轮交互与庞大复杂的上下文管理:海量的代码查询和文件输出不断被塞进对话历史,导致消耗持续膨胀,输入输出比最高可达154:1。

花费越多,效果不一定越好

对SWE-bench-verified中500个问题的统计显示,最贵的任务可比最便宜的任务多消耗约700万Token,而且越贵的任务,消耗的波动性也越大。即便是完全相同的任务,最贵的一次运行花费也可能是最便宜一次的两倍左右。

更关键的是,更多的Token消耗并不能保证更高的准确率。论文按消耗量将任务分组后发现,Token消耗更高的任务组,准确率反而常常更低。对同一任务的多次运行分析也表明:准确率最高点出现在较低开销时,而非开销最高时——当开销超过某个临界点,准确率不升反降。

为什么会这样?分析发现,高开销的运行轨迹中,重复修改和重复查看同一文件的次数显著更多,这表明大量Token其实被消耗在了来来回回的“折腾”上,而非高效的推理和验证。

模型之间的Token效率差异巨大

研究覆盖了八款模型:OpenAI的GPT-5和GPT-5.2,Anthropic的Claude Sonnet-3.7、Sonnet-4、Sonnet-4.5,Google的Gemini-3-Pro Preview,Moonshot AI的Kimi-K2,以及阿里巴巴的Qwen3-Coder-480B。

结果显示,不同模型的Token效率差异是系统性的。例如,GPT-5和GPT-5.2能以较低的Token成本达到不错的准确率,而Kimi-K2和Claude Sonnet-4.5在成本更高的同时,准确率却没有更高。在同样500个任务中,Kimi-K2和Claude Sonnet-4.5比GPT-5多消耗约150万Token。

Token消耗能否提前预测?

研究发现,人类专家对任务难度的判断,与Agent的实际Token消耗之间相关性很弱(Kendall tau = 0.32)。甚至有6.7%的“简单”任务比平均“困难”任务还要贵。

那么,Agent自己能预测吗?实验表明,模型预估开销与实际开销的相关性最高只有0.39(Claude Sonnet-4.5),大多数模型在0.2-0.3之间,且普遍低估实际消耗,尤其是对输入Token的低估。

如何降低你的Token成本?

既然Coding Agent的Token消耗充满随机性且不易预测,无论是人类还是模型自身,距离精确的事前定价都还有很大距离。那么,对于开发者和团队而言,选择一条高性价比、稳定可靠的API通道,就成了控制成本的关键一步。

这里向大家推荐一个正在发福利的API中转站——Aekor(https://api.aekor.com/)。它整合了多个主流模型的API接入,无需分别对接不同的服务商,就能一站式调用GPT-5、Claude Sonnet等高效模型。更吸引人的是,现在注册即可免费领取20美元额度进行试用。与其在不可预测的Token消耗中反复踩坑,不如先用免费的额度测试出最适合自己项目的模型和调用策略,把每一分成本都花在刀刃上。

总结

这项研究首次系统性地揭示了Coding Agent的Token消耗特征:输入Token占绝对主导,问题间和运行间的随机性极高;模型间的效率差异显著;更多Token并不保证更高成功率;而无论是人还是模型,对开销的事前预测能力都相当有限。未来的研究方向,必然包括更高效的Agent架构和更精准的开销预测方法。

本作品采用 知识共享署名 4.0 国际许可协议 进行许可
标签: AI Agent API中转站 Coding Agent Token
最后更新:2026-05-20

Aekor

这个人很懒,什么都没留下

点赞
< 上一篇
下一篇 >

文章评论

razz evil exclaim smile redface biggrin eek confused idea lol mad twisted rolleyes wink cool arrow neutral cry mrgreen drooling persevering
取消回复

使用AI教程

  • API报错解决方案
  • API 基础知识
  • API Key 获取

分类

  • Blog

COPYRIGHT © 2026 Aekor. ALL RIGHTS RESERVED.