Tencent Open-Sources OpenSearch-VL, Breaking Through the Training Bottleneck for Multimodal Search AI Agents

ITHome

IT之家

May 7, 2026, 02:28 AM

IT之家 5 月 7 日消息，腾讯混元（Tencent Hunyuan）携手加州大学洛杉矶分校（UCLA）、香港中文大学等学府，联合发布 OpenSearch-VL 开源多模态训练方案，通过强化学习（RL）技术，打造具备前沿能力的深度搜索智能体。多模态搜索智能体指能够处理图像、文本等多种模态输入，并主动调用外部工具（如搜索引擎、图像处理工具）进行多步骤推理、证据验证与知识检索的智能体，旨在解决知识密集型的复杂视觉问答。该报告昨日（5 月 6 日）在 arXiv 平台发表，介绍了 OpenSearch-VL 方案，用于训练前沿多模态深度搜索智能体。研究构建了高质量数据管道，通过维基百科路径采样与模糊实体重写减少检索捷径，产出 SearchVL-SFT-36k 等数据集。研究团队指出，目前阻碍前沿多模态搜索智能体进化的最大瓶颈，在于高质量的训练数据。现有顶尖系统多由商业公司主导，其数据来源、过滤标准与工具使用轨迹均属私有，阻碍了先进能力的复现与系统性研究。研究提出 OpenSearch-VL，提供从数据、工具到训练算法的完整开源方案。在构建数据管道方面，OpenSearch-