LongCat-Next 开源,AI 迎来原生多模态新篇章
人工智能领域迎来一次基础架构的重大突破,一个名为 LongCat-Next 的全新原生多模态大模型及其核心的离散分词器近日被正式发布并开源。该模型旨在解决当前主流大模型依赖“语言中心、外挂模块”的异构架构问题,致力于实现 AI 对物理世界的原生理解与感知,如同人类理解文字一般。
LongCat-Next 的核心创新在于其全新的 DiNA(离散原生自回归)架构。该架构将图像、声音和文本等多种模态统一转化为同源的离散 Token,使得所有信息在底座模型中能够共享同一套参数、注意力机制及损失函数。这意味着视觉的“看”与“画”,听觉的“听”与“说”,在数学层面都被统一为“下一 Token 预测(NTP)”这一核心任务,从而极大地简化了 AI 的底层架构并降低了部署的复杂度。

为了实现图像的有效离散化,团队开发了 dNaViT(离散原生分辨率视觉分词器)技术。该技术支持原生任意分辨率,尤其擅长处理文档解析和复杂图表推理等对细节要求极高的任务。dNaViT 应用了8层残差向量量化(RVQ)机制,实现了高达28倍的像素空间压缩,并通过解耦的双轨生成解码器确保了图像与文本还原的高保真度,成功构建了“图像→Token→图像”的完整闭环,使模型能从语言内部原生学习并内化视觉信息。
面对“离散化必然损失信息”的业界难题,LongCat-Next 通过构建 SAE(语义对齐编码器)实现了对表征的层级化拟合,从而在有限的离散空间内有效逼近高维连续表示。在以 LongCat-Flash-Lite MoE(68.5B总参数,3B激活参数)为基座的基准测试中,LongCat-Next 展现出强大的跨模态协同能力。在 OmniDocBench 测试中,其性能超越了 Qwen3-Omni,甚至击败了专为视觉设计的 Qwen3-VL,打破了以往离散模型在细粒度感知方面的局限。
该原生多模态模型在统一跨模态能力的同时,并未牺牲其核心的语言处理能力。在 MMLU-Pro 和 C-Eval 等纯文本基准测试中,LongCat-Next 均保持领先地位。在工具调用和代码编写方面,其 SWE-Bench 成绩也显著优于同类模型。在音频领域,模型在中英文语音合成上实现了极低的误字率,并支持低延迟并行文本语音生成及个性化语音克隆。LongCat-Next 的全面开源预示着原生多模态技术正加速走向更广泛的产业应用。
LongCat-Next 的出现,标志着 AI 模型在理解和生成多模态信息方面迈出了关键一步,其在数据压缩、细节处理和跨模态能力上的表现,为未来更高效、更通用的 AI 应用奠定了基础。