AI Agent正在大规模落地,其中最受关注的就是Claude Code、Codex、Cursor这类Coding Agent。过去一年,这类编程助手在SWE-bench-verified基准上的准确率已飙升至78%以上。 然而,一个普遍的抱怨也随之而来:“为什么它解决问题这么啰嗦?”“我的credits怎么又见底了?” 这背后,暴露了当前Coding Agent的三大问题: 针对这些问题,来自密歇根大学、斯坦福大学等机构的研究者,基于开源的OpenHands Agent框架,分析了8款前沿模型在SWE-bench…