腾讯发布OpenSearch-VL：多模态深度搜索新工具

作者 V科技发布时间 2026年05月08日 08:09 浏览量 4 0 评论

AI 智能体正加速从被动理解走向主动推理，尤其是在多模态大语言模型（MLLMs）领域，如何让模型具备“主动寻找证据并进行推理”的能力，已成为技术竞赛的焦点。然而，高质量训练数据的稀缺、自动化轨迹合成路径的复杂以及详细训练方案的缺失，使得顶尖的多模态搜索智能体难以被开源社区有效复现。

为打破这一技术瓶颈，腾讯混元联合加州大学洛杉矶分校（UCLA）及香港中文大学等机构的研究团队，正式推出 OpenSearch-VL。该项目提供了一个完全开源的路线图，旨在利用强化学习（RL）技术，构建具备前沿搜索智能体能力的新一代模型。

OpenSearch-VL 的核心创新之一在于其精细的数据生产流程，有效克服了当前多模态模型在复杂推理时易出现的“搜索捷径”问题。通过对维基百科的超链接图谱进行路径采样，研究团队将复杂的实体关系转化为多跳（Multi-hop）问答任务。为了强制模型进行深度推理，他们采用模糊实体重写技术隐藏直接答案，并结合基于源码锚点的视觉定位技术，迫使智能体必须先识别视觉线索，再辅以外部工具逐步检索，从而避免了功能性崩坏。基于此，项目构建了包含3.6万条指令微调轨迹的 SearchVL-SFT 数据库，以及8000条用于强化学习的 SearchVL-RL 数据库。

该项目集成了一个高度多元化的工具集，超越了单纯的文本或图像检索。考虑到现实场景中图像输入可能存在的模糊、歪斜或低分辨率等问题，OpenSearch-VL 集成了网页搜索、反向图像搜索，以及 OCR（光学字符识别）、图像裁剪、锐化、超分辨率重建和透视校正等多种图像预处理功能。这意味着智能体在调用外部知识前，能够主动修复和增强不完美的视觉信息，确保后续搜索的精准度和有效性。

在应对复杂的多步任务处理中，工具调用可能出现连锁反应，导致整个任务失败。OpenSearch-VL 提出的 “多轮故障感知 GRPO” 训练算法，能够精准识别工具调用的“致死点”。该算法通过掩码技术过滤掉故障后的无效信息，同时利用单边优势钳制（One-sided advantage clamping）技术保留故障发生前的有效逻辑。这种机制使得模型即使在最终任务失败的情况下，也能从失败的经验中学习到前期有效的搜索路径和探索策略，极大提升了训练效率和模型鲁棒性。

V科技点评

在七项主流多模态深度搜索基准测试中的实验结果显示，OpenSearch-VL 的平均性能提升超过10个百分点，部分任务的表现已能与当前顶级的闭源商业模型相媲美。研究团队正计划将 OpenSearch-VL 的所有训练数据、代码及模型权重全面开源，旨在为全球开发者提供一个可复现、可扩展的基础框架，推动多模态智能体研究向更深层次发展。

OpenSearch-VL 的优势在于其对复杂任务的深入理解和处理能力，通过强大的数据生产线和工具链，它能够更好地模拟人类解决问题的过程。然而，其高度依赖的数据格式和工具调用流程，对于初学者而言可能存在一定的上手门槛。但一旦掌握，其强大的“主动感知”和“故障感知”能力，将为开发更智能、更可靠的AI应用提供坚实基础。

腾讯发布OpenSearch-VL：多模态深度搜索新工具

暂无评论！成为第一个。

发表回复取消回复

Mixdesk

CREATUS.AI

Powered_by Agency

Jeeva.ai

腾讯发布OpenSearch-VL：多模态深度搜索新工具

相关资讯

暂无评论！成为第一个。

发表回复 取消回复

发表回复取消回复