跳至正文
V科技 V科技

聚焦软件应用、手机数码、效率方法、AI 工具与行业观察的科技媒体

V科技 V科技

聚焦软件应用、手机数码、效率方法、AI 工具与行业观察的科技媒体

  • 首页
  • 深度评测
  • 软件应用
  • 手机与数码
  • Ai资讯
  • 行业观察
  • AI 工具
  • 智能汽车
  • 首页
  • 深度评测
  • 软件应用
  • 手机与数码
  • Ai资讯
  • 行业观察
  • AI 工具
  • 智能汽车
关

搜索

V科技 V科技

聚焦软件应用、手机数码、效率方法、AI 工具与行业观察的科技媒体

V科技 V科技

聚焦软件应用、手机数码、效率方法、AI 工具与行业观察的科技媒体

  • 首页
  • 深度评测
  • 软件应用
  • 手机与数码
  • Ai资讯
  • 行业观察
  • AI 工具
  • 智能汽车
  • 首页
  • 深度评测
  • 软件应用
  • 手机与数码
  • Ai资讯
  • 行业观察
  • AI 工具
  • 智能汽车
关

搜索

Ai资讯

腾讯发布OpenSearch-VL:多模态深度搜索新工具

V科技 作者 V科技 发布时间 2026年05月08日 08:09 浏览量 4 0 评论

AI 智能体正加速从被动理解走向主动推理,尤其是在多模态大语言模型(MLLMs)领域,如何让模型具备“主动寻找证据并进行推理”的能力,已成为技术竞赛的焦点。然而,高质量训练数据的稀缺、自动化轨迹合成路径的复杂以及详细训练方案的缺失,使得顶尖的多模态搜索智能体难以被开源社区有效复现。

为打破这一技术瓶颈,腾讯混元联合加州大学洛杉矶分校(UCLA)及香港中文大学等机构的研究团队,正式推出 OpenSearch-VL。该项目提供了一个完全开源的路线图,旨在利用强化学习(RL)技术,构建具备前沿搜索智能体能力的新一代模型。

image.png

OpenSearch-VL 的核心创新之一在于其精细的数据生产流程,有效克服了当前多模态模型在复杂推理时易出现的“搜索捷径”问题。通过对维基百科的超链接图谱进行路径采样,研究团队将复杂的实体关系转化为多跳(Multi-hop)问答任务。为了强制模型进行深度推理,他们采用模糊实体重写技术隐藏直接答案,并结合基于源码锚点的视觉定位技术,迫使智能体必须先识别视觉线索,再辅以外部工具逐步检索,从而避免了功能性崩坏。基于此,项目构建了包含3.6万条指令微调轨迹的 SearchVL-SFT 数据库,以及8000条用于强化学习的 SearchVL-RL 数据库。

该项目集成了一个高度多元化的工具集,超越了单纯的文本或图像检索。考虑到现实场景中图像输入可能存在的模糊、歪斜或低分辨率等问题,OpenSearch-VL 集成了网页搜索、反向图像搜索,以及 OCR(光学字符识别)、图像裁剪、锐化、超分辨率重建和透视校正等多种图像预处理功能。这意味着智能体在调用外部知识前,能够主动修复和增强不完美的视觉信息,确保后续搜索的精准度和有效性。

在应对复杂的多步任务处理中,工具调用可能出现连锁反应,导致整个任务失败。OpenSearch-VL 提出的 “多轮故障感知 GRPO” 训练算法,能够精准识别工具调用的“致死点”。该算法通过掩码技术过滤掉故障后的无效信息,同时利用单边优势钳制(One-sided advantage clamping)技术保留故障发生前的有效逻辑。这种机制使得模型即使在最终任务失败的情况下,也能从失败的经验中学习到前期有效的搜索路径和探索策略,极大提升了训练效率和模型鲁棒性。

V科技点评

在七项主流多模态深度搜索基准测试中的实验结果显示,OpenSearch-VL 的平均性能提升超过10个百分点,部分任务的表现已能与当前顶级的闭源商业模型相媲美。研究团队正计划将 OpenSearch-VL 的所有训练数据、代码及模型权重全面开源,旨在为全球开发者提供一个可复现、可扩展的基础框架,推动多模态智能体研究向更深层次发展。

OpenSearch-VL 的优势在于其对复杂任务的深入理解和处理能力,通过强大的数据生产线和工具链,它能够更好地模拟人类解决问题的过程。然而,其高度依赖的数据格式和工具调用流程,对于初学者而言可能存在一定的上手门槛。但一旦掌握,其强大的“主动感知”和“故障感知”能力,将为开发更智能、更可靠的AI应用提供坚实基础。

相关资讯
上海探索人工智能安全治理新实践 月之暗面 Kimi 融资 20 亿美元,估值超 200 亿美元 xAI 发布 Grok Imagine API 提升写实图像生成 无问芯穹获超七亿融资 聚焦“电能到Token”效率提升 Snap 与 Perplexity 终止 4 亿美元合作 Arm 预测明年 AI 芯片营收突破 20 亿美元 OpenAI 投入 500 亿美元,推动算力竞赛新格局 Anthropic 与 SpaceX 合作,Claude 付费版享高速访问
暂无评论!成为第一个。

发表回复 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

热门文章

  • 斑马智行接入支付宝,智能座舱体验升级 2026年4月24日
  • 学生购买MacBook可享教育优惠吗 2026年4月23日
  • 相机之外的摄影新选择 2026年4月23日
  • vivo X300 FE 搭载骁龙8+与6500mAh电池,模块化影像系统亮相 2026年4月24日
  • 王心凌演唱会被观众催促脱衣,本人回应现场情况 2026年4月24日

热议文章

  • 01
    华为乾崑助推五一出行,辅助驾驶里程超 2.8 亿公里 0条评论
  • 02
    征程6B量产上市,广汽丰田铂智3X率先搭载 0条评论
  • 03
    沃尔沃携手千里智驾,明年年初有望量产搭载 0条评论
  • 04
    奥迪E7X预售开启:宁德时代109度电池,28.98万起 0条评论
  • 05
    红魔11S Pro:风冷水冷双模旗舰定档 0条评论

AI 工具精选

Mixdesk

针对全球企业的AI驱动社交客户服务和营销解决方案。

CREATUS.AI

创建美观且交互式表单的平台,无需编码。

Powered_by Agency

为SMB提供定制化的AI代理解决方案,专注于多渠道自动化。

Jeeva.ai

具备人工智能的销售代理,用于自动化潜在客户生成和客户互动。

智能汽车

  • 华为乾崑助推五一出行,辅助驾驶里程超 2.8 亿公里 2026年5月8日
  • 征程6B量产上市,广汽丰田铂智3X率先搭载 2026年5月8日
  • 沃尔沃携手千里智驾,明年年初有望量产搭载 2026年5月8日
  • 奥迪E7X预售开启:宁德时代109度电池,28.98万起 2026年5月8日
V科技 V科技 科技媒体与数码生活指南

聚焦软件应用、手机数码、效率方法、AI 工具与行业观察。

栏目导航 深度体验 软件应用 手机与数码 行业观察 智能汽车 AI 工具 站点地图
Copyright 2026 — V科技。聚焦软件应用、手机数码、效率方法、AI 工具与行业观察。 琼ICP备2024029348号