字节跳动发布多模态大模型,兼具视听与交互能力
火山引擎推出首款全模态理解大模型 Doubao-Seed-2.0-lite
字节跳动旗下火山引擎于5月6日发布了其大模型家族的首款全模态理解模型——Doubao-Seed-2.0-lite。这一最新升级版本突破了单一模态的局限,实现了对视频、图像、音频及文本信息进行原生统一理解,标志着其在多模态交互技术上迈出了重要一步。

在高级学科的复杂推理能力方面,Doubao-Seed-2.0-lite 取得了显著进展,其在物理、医疗等领域的表现已超越了今年2月发布的Pro版本。该模型在前沿的细粒度感知和具身理解领域也达到了行业领先水平。通过整合语音理解技术,新模型能够实现“音画同步”的深度联合推理,这意味着它不仅能识别视频画面内容,还能结合背景音频判断视听一致性,并根据指令在长视频中精准定位事件、还原复杂的人物关系。

音频处理方面,Doubao-Seed-2.0-lite 支持包括中英在内的19种语言的语音转写,以及14种语言之间的互译,展现出高精度翻译和感知能力。此外,它还能捕捉语音中的情绪波动与环境背景声,使其理解能力更接近人类的自然感知方式。

Doubao-Seed-2.0-lite 在 Agent(智能体)和 Coding(编程)能力上也实现了同步进化,显著提升了对多轮复杂指令的遵循度和自我校验能力。在开发领域,其代码生成能力已覆盖前端、3D场景及游戏开发,能够输出具备美观视觉效果且工程结构完整的产物。

值得一提的是,该模型首次实现了图形用户界面(GUI)的理解与执行一体化。它不仅能够识别界面元素,还能模拟人类用户的点击、拖拽、输入等操作,从而实现从“读懂界面”到“端到端完成任务”的闭环。目前,这项技术已成功应用于电竞复盘、在线教育和跨境电商等多个场景。例如,在电竞领域,AI能够分析长达25小时的比赛视频与语音,自动生成战术复盘图谱。
Doubao-Seed-2.0-lite 作为一款全模态理解模型,其优势在于能够整合多种感官信息进行深度理解和推理,这对于需要复杂信息处理的AI应用(如智能客服、内容创作、自动驾驶辅助等)具有重要意义。其强大的 Agent 和 Coding 能力,也为开发者降低了开发门槛,有望加速AI在各行业的应用落地。