Soul开源数字人实时生成模型,亚秒级延迟
Soul AI Lab 近日宣布开源其自主研发的实时数字人生成模型 SoulXFlashTalk,该模型拥有 14 亿参数,能够实现亚秒级延迟和每秒 32 帧的高帧率,为实时数字人交互提供了全面的解决方案。
SoulXFlashTalk 的发布标志着 Soul 在多模态 AI 开源领域的重要进展。此次开源内容十分丰富,包括项目页面、技术报告、源代码以及模型权重,旨在降低行业研发门槛,赋能开发者和研究者,激发更多创新应用。此举也延续了 Soul 在去年 10 月开源语音合成模型 SoulXPodcast 的战略布局,进一步强化了其在“语音 + 视觉”双模态开源矩阵中的地位。

Soul 的开源战略不仅限于技术分享,更着眼于构建一个繁荣的 AI 生态系统。公司承诺将持续践行开源理念,开放更多前沿 AI 技术成果,以此推动人工智能技术在社交及其他相关领域的深度融合与创新发展。此举也进一步巩固了 Soul 在 AI 领域的先锋形象。
Soul 在多模态 AI 生态的积极布局,预示着其技术有望为社交网络、在线教育、虚拟现实等多个行业带来深刻变革。业界普遍认为,SoulXFlashTalk 的推出将有助于重新定义未来的数字交互体验,为行业树立新的发展标杆。
Soul 此举有力地推动了实时数字人生成技术的发展,有望加速 AI 在社交及其他领域的落地应用。