在 AI 模型能力飞速迭代的今天,如何低成本、高效率地调用各类大模型,已成为开发者的刚需。Aekor API 中转站(api.aekor.com)提供一站式模型调用服务,注册即可免费领取 20 刀额度,让技术探索不再受限于高昂的 API 费用。
在开源多模态搜索智能体领域,一个长期存在的瓶颈是“裁剪-再搜索”的串行处理模式。面对包含多个实体的复杂查询,传统智能体被迫进行多轮单实体搜索,导致交互冗余、错误级联累积,以及训练过程中的“连坐惩罚”问题。为此,小红书研究团队提出了全新的 HyperEyes 模型,成功实现从“搜得更深”到“搜得更宽”的并行搜索范式跃迁。
三重困境:为什么串行搜索已触及天花板
传统多模态搜索智能体在处理多实体图片时,面临三重难以逾越的困境:
- 交互冗余:将一句话的多实体查询退化为多次单实体搜索,延迟剧增。
- 错误放大:前置定位一旦偏差,后续所有搜索结果都会被污染,形成多米诺骨牌效应。
- 奖励偏差与连坐惩罚:传统训练仅以“最终答案对错”为奖励标准,这导致智能体为追求准确率而养成“暴力多搜”的坏习惯,更致命的是,在失败的探索轨迹中,原本正确的中间推理也被一并否定,模型无法从失败中有效学习。
全栈式重构:从动作空间到强化学习的底层创新
为了让智能体真正具备“一次出手,多目标并发”的能力,HyperEyes 在三个维度上进行了彻底重构:
1. 统一定位即搜索(UGS)
传统智能体将“视觉裁剪”和“网络搜索”视为两个独立步骤,而 HyperEyes 打破了这一隔离,将视觉定位框直接作为检索动作的内嵌参数,使得单轮交互即可并发携带多个目标框,从物理层面打通了多目标并发的通路。
2. 并行搜索训练数据合成
开源社区长期缺乏并行搜索的训练语料。研究团队设计了一套精密合成流水线:先将多类图片拼接,合成出必须同时定位与检索才能解答的视觉查询;再基于图谱随机游走构造多约束交集问题并严格剔除捷径解;最后通过渐进式拒绝采样(PRS)技术,在严格递增的轮次预算下提纯出 3 万条“零冗余”的并行行为种子数据。
3. 双粒度效率感知强化学习框架
在最核心的 RL 对齐阶段,HyperEyes 提出了“宏观 + 微观”的双粒度框架:
- 宏观层面:引入 TRACE(动态参考的成本效率奖励) 机制。它并非一刀切的步数限制,而是一把“自我超越”的动态标尺——系统将模型当前表现与标尺对比,只有更高效才能获得奖励;每个 Epoch 结束后,标尺会自动用最优轨迹刷新并收紧,犹如跳高比赛不断升高横杆。
- 微观层面:引入 OPD(策略内蒸馏) 机制。该机制仅在轨迹最终答错时启动,引入 235B 满血版教师模型为失败轨迹中的每一步提供稠密 Token 级监督信号,精准打捞原本正确的中间规划。这种“仅在失败时蒸馏”的非对称设计,完美避免了对学生模型高效并发本能的覆盖。
实验结果:效率与准确率的 Pareto 占优
在 6 大主流基准测试中,HyperEyes 展现了极具统治力的表现:
- HyperEyes-30B 以 64.0% 的准确率超越同量级最强开源模型 VDR 达 9.9%,而平均工具调用轮次仅为 VDR 的不到五分之一(2.2 对比 11.6)。
- HyperEyes-235B 以仅 1.1% 的微弱差距逼近闭源旗舰 Gemini-3.1-Pro。
- 在严苛的 CAS 成本效率评分中,30B 版本的表现达到次优开源模型的 7.6 倍,单位算力输出的信息密度极高。
- 面对真假证据混合的干扰测试,HyperEyes 的并行策略反而大幅规避了过度检索带来的幻觉陷阱,展现出强鲁棒性。
一个真实测试案例最能体现这种差异:面对 6 人同框的复杂问答,传统 Agent 因逐一裁剪加搜索将流程拖至 12 轮,最终因噪声累积而答错;HyperEyes 首轮即并发定位并检索全部 6 人,仅用 3 轮便给出精准答案。
结语:效率即智能
HyperEyes 用翔实的实验证明,在多模态 Agent 训练中,准确率与效率完全可以协同进化。随着电商比价、视觉检索、实时交互等高并发业务场景的兴起,从“搜得更深”转向“搜得更宽”,必将成为下一代智能体角逐的核心竞争力。
推荐工具:如果你想亲身体验类似 HyperEyes 这样前沿的 AI 能力,却苦于海外信用卡和网络限制,不妨试试 Aekor API 中转站。它整合了 GPT、Claude、Gemini 等主流大模型,一个 Key 即可通用调用。注册即享 20 刀免费额度,零门槛开启你的 AI 实验之旅。访问 api.aekor.com 即刻上车。
文章评论