千问灰测HappyHorse模型,多镜头流畅切换
阿里巴巴旗下千问APP近日宣布,其自主研发的多模态视频生成模型HappyHorse 1.0已正式启动灰度测试。用户通过更新至最新版千问APP,即可在首页找到并体验这一前沿技术。
核心技术与性能亮点
HappyHorse 1.0由阿里ATH创新事业部倾力打造,集成了150亿参数并采用了40层统一自注意力Transformer架构。该模型在权威第三方评测平台Artificial Analysis的Video Arena盲测中表现卓越,文生视频Elo得分达到1383分,图生视频得分更是高达1413分,显著领先于其他竞争者,并创下了新的行业纪录,标志着其在文生视频领域的顶尖实力。
模型功能与创作体验
作为阿里巴巴最新推出的视频大模型,HappyHorse 1.0的核心优势在于其出色的叙事能力和广泛的风格适应性。模型能够实现长达15秒的多镜头连贯叙事,并支持多种画幅格式的适配,同时还能输出1080P超高清分辨率的视频。用户仅需提供简洁的文字描述,即可生成镜头切换自然、剧情流畅且具有完整配音、环境音和背景音乐的视频,省去了繁琐的后期处理步骤,极大地降低了视频创作的门槛。此外,它还能支持TVB港风、古风、老电影、动画风等多种艺术风格的视频生成。

音画同步与多语言支持
HappyHorse 1.0在音画同步方面实现了原生支持,其单流联合建模技术能够一次性推理生成带有配音、环境音与背景音乐的完整视频。模型原生支持普通话、粤语、英语、法语、韩语、日语、德语等七种语言的口型同步,并能生成自然的人物动作和表情,精准传达场景情绪。千问APP还为用户提供了丰富的创作模板,方便用户快速生成各种剧情短片。

行业影响与未来展望

HappyHorse 1.0模型的发布,标志着国内在文生视频技术领域取得了显著的进展,尤其是在多镜头叙事、音画同步和多语言支持方面达到了新的高度。其强大的性能和简化的创作流程,有望进一步降低视频内容生产的门槛,赋能更多个人用户和小型团队,激发创意活力,推动短视频、广告、教育等领域的创新应用。同时,也为AI生成内容(AIGC)的商业化落地提供了更具潜力的解决方案,预示着多模态AI在内容创作领域的未来发展方向。
此次HappyHorse 1.0模型的灰度测试,不仅体现了阿里在AI技术研发上的实力,也为国内AIGC产业注入了新的活力。该模型在技术指标和用户体验上的突破,预示着视频生成AI正从实验室走向更广泛的应用场景,未来有望催生出更多新颖的内容创作模式和商业机会。