京东开源JoyAI-VL-Interaction，实现实时视频交互

作者 V科技发布时间 2026年06月22日 17:45 浏览量 11 0 评论

京东近日宣布将其自主研发的核心技术——实时视频视觉语言交互模型 JoyAI-VL-Interaction 正式开源。该模型是全球首个实现全栈开源的交互式视觉模型，并得到了 vLLM-Omni 的强大支持。此次开源标志着人工智能助手正从传统的被动问答模式，迈向能够“边看边说”的主动观察和交流新阶段。

JoyAI-VL-Interaction 的关键突破在于其能够持续实时地观察视频流，并智能判断何时需要进行人机互动，何时应保持静默。这种主动的交互方式，摆脱了过去需要等待用户提问后才开始处理画面的滞后局面，旨在为用户提供更为自然流畅的交流体验。相较于依赖用户指令的传统模式，它能更有效地捕捉和响应视频中的动态变化。

该模型的实时处理能力，对于处理高速变化的动态信息至关重要。传统视频理解技术往往受限于“先上传、后分析”的流程，难以满足安防监控、直播解说、操作指导等对实时性要求极高的应用场景。JoyAI-VL-Interaction 能够直接面向实时视频流进行即时分析和响应，实现了画面变化与智能回应的真正同步。

在处理复杂任务时，JoyAI-VL-Interaction 引入了“后台委托”机制。当遇到需要生成代码、进行复杂推理或调用外部工具的任务时，模型可以将这些高难度任务分发给后端的 Agent 系统处理。与此同时，前台模型则能继续专注于对现场视频流的实时观察，确保在执行复杂逻辑的同时，也能与用户保持无缝沟通。这种“观察”与“交互”并行工作的模式，极大地提升了 AI 助手的效率和智能化水平。

在兼容性方面，该模型支持摄像头、直播流及各类监控信号等多种视频输入源。同时，它也允许开发者根据具体业务需求，灵活地替换或扩展其核心模块，例如语音识别（ASR）、语音合成（TTS）、长期记忆模块或外部 API 接口，为构建多样化的 AI 应用提供了广阔的空间。

V科技点评

京东公布的盲评测试结果显示，JoyAI-VL-Interaction 在涵盖监控预警、实时翻译、时间感知等58个流式场景的真人评测中表现出色。其总体胜率大幅领先同类产品，尤其在处理复杂视觉触发的交互任务时，展现出显著的优势。这一开源方案为科研探索、安防监控、电商导购、AI 眼镜等产业级应用提供了强大的技术基座。

JoyAI-VL-Interaction 的推出，标志着 AI 助手在理解和响应动态视觉信息方面迈出了重要一步。其“边看边说”的交互模式，适用于需要实时感知和反馈的多种场景，有望在人机协作、自动化监控以及沉浸式体验等方面带来革命性的变化。对于开发者而言，该模型提供了高度的灵活性和可扩展性，降低了构建先进视觉交互应用的门槛。

京东开源JoyAI-VL-Interaction，实现实时视频交互

暂无评论！成为第一个。

发表回复取消回复

Mixdesk

CREATUS.AI

Powered_by Agency

Jeeva.ai

京东开源JoyAI-VL-Interaction，实现实时视频交互

相关资讯

暂无评论！成为第一个。

发表回复 取消回复

发表回复取消回复