腾讯发布OpenSearch-VL:多模态深度搜索新工具
AI 智能体正加速从被动理解走向主动推理,尤其是在多模态大语言模型(MLLMs)领域,如何让模型具备“主动寻找证据并进行推理”的能力,已成为技术竞赛的焦点。然而,高质量训练数据的稀缺、自动化轨迹合成路径的复杂以及详细训练方案的缺失,使得顶尖的多模态搜索智能体难以被开源社区有效复现。
为打破这一技术瓶颈,腾讯混元联合加州大学洛杉矶分校(UCLA)及香港中文大学等机构的研究团队,正式推出 OpenSearch-VL。该项目提供了一个完全开源的路线图,旨在利用强化学习(RL)技术,构建具备前沿搜索智能体能力的新一代模型。

OpenSearch-VL 的核心创新之一在于其精细的数据生产流程,有效克服了当前多模态模型在复杂推理时易出现的“搜索捷径”问题。通过对维基百科的超链接图谱进行路径采样,研究团队将复杂的实体关系转化为多跳(Multi-hop)问答任务。为了强制模型进行深度推理,他们采用模糊实体重写技术隐藏直接答案,并结合基于源码锚点的视觉定位技术,迫使智能体必须先识别视觉线索,再辅以外部工具逐步检索,从而避免了功能性崩坏。基于此,项目构建了包含3.6万条指令微调轨迹的 SearchVL-SFT 数据库,以及8000条用于强化学习的 SearchVL-RL 数据库。
该项目集成了一个高度多元化的工具集,超越了单纯的文本或图像检索。考虑到现实场景中图像输入可能存在的模糊、歪斜或低分辨率等问题,OpenSearch-VL 集成了网页搜索、反向图像搜索,以及 OCR(光学字符识别)、图像裁剪、锐化、超分辨率重建和透视校正等多种图像预处理功能。这意味着智能体在调用外部知识前,能够主动修复和增强不完美的视觉信息,确保后续搜索的精准度和有效性。
在应对复杂的多步任务处理中,工具调用可能出现连锁反应,导致整个任务失败。OpenSearch-VL 提出的 “多轮故障感知 GRPO” 训练算法,能够精准识别工具调用的“致死点”。该算法通过掩码技术过滤掉故障后的无效信息,同时利用单边优势钳制(One-sided advantage clamping)技术保留故障发生前的有效逻辑。这种机制使得模型即使在最终任务失败的情况下,也能从失败的经验中学习到前期有效的搜索路径和探索策略,极大提升了训练效率和模型鲁棒性。
在七项主流多模态深度搜索基准测试中的实验结果显示,OpenSearch-VL 的平均性能提升超过10个百分点,部分任务的表现已能与当前顶级的闭源商业模型相媲美。研究团队正计划将 OpenSearch-VL 的所有训练数据、代码及模型权重全面开源,旨在为全球开发者提供一个可复现、可扩展的基础框架,推动多模态智能体研究向更深层次发展。
OpenSearch-VL 的优势在于其对复杂任务的深入理解和处理能力,通过强大的数据生产线和工具链,它能够更好地模拟人类解决问题的过程。然而,其高度依赖的数据格式和工具调用流程,对于初学者而言可能存在一定的上手门槛。但一旦掌握,其强大的“主动感知”和“故障感知”能力,将为开发更智能、更可靠的AI应用提供坚实基础。