从“搜得更深”到“搜得更宽”：HyperEyes 如何用并行搜索重构多模态智能体效率

2026-04-24 3921点热度 0人点赞 0条评论

在 AI 模型能力飞速迭代的今天，如何低成本、高效率地调用各类大模型，已成为开发者的刚需。Aekor API 中转站（api.aekor.com）提供一站式模型调用服务，注册即可免费领取 20 刀额度，让技术探索不再受限于高昂的 API 费用。

在开源多模态搜索智能体领域，一个长期存在的瓶颈是“裁剪-再搜索”的串行处理模式。面对包含多个实体的复杂查询，传统智能体被迫进行多轮单实体搜索，导致交互冗余、错误级联累积，以及训练过程中的“连坐惩罚”问题。为此，小红书研究团队提出了全新的 HyperEyes 模型，成功实现从“搜得更深”到“搜得更宽”的并行搜索范式跃迁。

三重困境：为什么串行搜索已触及天花板

传统多模态搜索智能体在处理多实体图片时，面临三重难以逾越的困境：

交互冗余：将一句话的多实体查询退化为多次单实体搜索，延迟剧增。
错误放大：前置定位一旦偏差，后续所有搜索结果都会被污染，形成多米诺骨牌效应。
奖励偏差与连坐惩罚：传统训练仅以“最终答案对错”为奖励标准，这导致智能体为追求准确率而养成“暴力多搜”的坏习惯，更致命的是，在失败的探索轨迹中，原本正确的中间推理也被一并否定，模型无法从失败中有效学习。

全栈式重构：从动作空间到强化学习的底层创新

为了让智能体真正具备“一次出手，多目标并发”的能力，HyperEyes 在三个维度上进行了彻底重构：

1. 统一定位即搜索（UGS）

传统智能体将“视觉裁剪”和“网络搜索”视为两个独立步骤，而 HyperEyes 打破了这一隔离，将视觉定位框直接作为检索动作的内嵌参数，使得单轮交互即可并发携带多个目标框，从物理层面打通了多目标并发的通路。

2. 并行搜索训练数据合成

开源社区长期缺乏并行搜索的训练语料。研究团队设计了一套精密合成流水线：先将多类图片拼接，合成出必须同时定位与检索才能解答的视觉查询；再基于图谱随机游走构造多约束交集问题并严格剔除捷径解；最后通过渐进式拒绝采样（PRS）技术，在严格递增的轮次预算下提纯出 3 万条“零冗余”的并行行为种子数据。

3. 双粒度效率感知强化学习框架

在最核心的 RL 对齐阶段，HyperEyes 提出了“宏观 + 微观”的双粒度框架：

宏观层面：引入 TRACE（动态参考的成本效率奖励） 机制。它并非一刀切的步数限制，而是一把“自我超越”的动态标尺——系统将模型当前表现与标尺对比，只有更高效才能获得奖励；每个 Epoch 结束后，标尺会自动用最优轨迹刷新并收紧，犹如跳高比赛不断升高横杆。
微观层面：引入 OPD（策略内蒸馏） 机制。该机制仅在轨迹最终答错时启动，引入 235B 满血版教师模型为失败轨迹中的每一步提供稠密 Token 级监督信号，精准打捞原本正确的中间规划。这种“仅在失败时蒸馏”的非对称设计，完美避免了对学生模型高效并发本能的覆盖。

实验结果：效率与准确率的 Pareto 占优

在 6 大主流基准测试中，HyperEyes 展现了极具统治力的表现：

HyperEyes-30B 以 64.0% 的准确率超越同量级最强开源模型 VDR 达 9.9%，而平均工具调用轮次仅为 VDR 的不到五分之一（2.2 对比 11.6）。
HyperEyes-235B 以仅 1.1% 的微弱差距逼近闭源旗舰 Gemini-3.1-Pro。
在严苛的 CAS 成本效率评分中，30B 版本的表现达到次优开源模型的 7.6 倍，单位算力输出的信息密度极高。
面对真假证据混合的干扰测试，HyperEyes 的并行策略反而大幅规避了过度检索带来的幻觉陷阱，展现出强鲁棒性。

一个真实测试案例最能体现这种差异：面对 6 人同框的复杂问答，传统 Agent 因逐一裁剪加搜索将流程拖至 12 轮，最终因噪声累积而答错；HyperEyes 首轮即并发定位并检索全部 6 人，仅用 3 轮便给出精准答案。

结语：效率即智能

HyperEyes 用翔实的实验证明，在多模态 Agent 训练中，准确率与效率完全可以协同进化。随着电商比价、视觉检索、实时交互等高并发业务场景的兴起，从“搜得更深”转向“搜得更宽”，必将成为下一代智能体角逐的核心竞争力。

推荐工具：如果你想亲身体验类似 HyperEyes 这样前沿的 AI 能力，却苦于海外信用卡和网络限制，不妨试试 Aekor API 中转站。它整合了 GPT、Claude、Gemini 等主流大模型，一个 Key 即可通用调用。注册即享 20 刀免费额度，零门槛开启你的 AI 实验之旅。访问 api.aekor.com 即刻上车。

本作品采用知识共享署名 4.0 国际许可协议进行许可