京东开源JoyAI-VL-Interaction,实现实时视频交互
京东近日宣布将其自主研发的核心技术——实时视频视觉语言交互模型 JoyAI-VL-Interaction 正式开源。该模型是全球首个实现全栈开源的交互式视觉模型,并得到了 vLLM-Omni 的强大支持。此次开源标志着人工智能助手正从传统的被动问答模式,迈向能够“边看边说”的主动观察和交流新阶段。
JoyAI-VL-Interaction 的关键突破在于其能够持续实时地观察视频流,并智能判断何时需要进行人机互动,何时应保持静默。这种主动的交互方式,摆脱了过去需要等待用户提问后才开始处理画面的滞后局面,旨在为用户提供更为自然流畅的交流体验。相较于依赖用户指令的传统模式,它能更有效地捕捉和响应视频中的动态变化。

该模型的实时处理能力,对于处理高速变化的动态信息至关重要。传统视频理解技术往往受限于“先上传、后分析”的流程,难以满足安防监控、直播解说、操作指导等对实时性要求极高的应用场景。JoyAI-VL-Interaction 能够直接面向实时视频流进行即时分析和响应,实现了画面变化与智能回应的真正同步。
在处理复杂任务时,JoyAI-VL-Interaction 引入了“后台委托”机制。当遇到需要生成代码、进行复杂推理或调用外部工具的任务时,模型可以将这些高难度任务分发给后端的 Agent 系统处理。与此同时,前台模型则能继续专注于对现场视频流的实时观察,确保在执行复杂逻辑的同时,也能与用户保持无缝沟通。这种“观察”与“交互”并行工作的模式,极大地提升了 AI 助手的效率和智能化水平。
在兼容性方面,该模型支持摄像头、直播流及各类监控信号等多种视频输入源。同时,它也允许开发者根据具体业务需求,灵活地替换或扩展其核心模块,例如语音识别(ASR)、语音合成(TTS)、长期记忆模块或外部 API 接口,为构建多样化的 AI 应用提供了广阔的空间。
京东公布的盲评测试结果显示,JoyAI-VL-Interaction 在涵盖监控预警、实时翻译、时间感知等58个流式场景的真人评测中表现出色。其总体胜率大幅领先同类产品,尤其在处理复杂视觉触发的交互任务时,展现出显著的优势。这一开源方案为科研探索、安防监控、电商导购、AI 眼镜等产业级应用提供了强大的技术基座。
JoyAI-VL-Interaction 的推出,标志着 AI 助手在理解和响应动态视觉信息方面迈出了重要一步。其“边看边说”的交互模式,适用于需要实时感知和反馈的多种场景,有望在人机协作、自动化监控以及沉浸式体验等方面带来革命性的变化。对于开发者而言,该模型提供了高度的灵活性和可扩展性,降低了构建先进视觉交互应用的门槛。