MiniMax M3大模型发布:首创MSA架构,支持百万级上下文,全面开源
MiniMax 稀宇科技于2026年6月1日正式推出其新一代前沿大模型 MiniMax M3。这款模型在技术上实现了多项突破,集成了顶尖的编程能力、100万(1M)的超长上下文处理能力以及原生的多模态处理能力。MiniMax M3 的发布旨在与海外领先的闭源旗舰模型展开全面竞争,并对国内大模型技术的发展具有重要意义。

为了解决智能体任务在处理复杂场景时面临的上下文长度限制,MiniMax M3 在底层架构上自主研发了稀疏注意力架构(MSA)。相较于传统的模型处理方式,MSA 能够实现更精准的 KV 分块和算子层优化,这使得其计算速度在同类开源模型中提升了四倍以上。更值得注意的是,在支持 1M 超长上下文的条件下,M3 模型每 Token 的计算量仅为上一代模型的二分之一至十分之一,其预填和解码阶段的处理速度分别获得了超过 9 倍和 15 倍的显著提升。

通过在海量、混合类型的数据上进行百万亿量级的交错训练,MiniMax M3 构建了一个高度融合的语义空间。在 SWE-Bench Pro 等权威的软件工程和多模态评测中,M3 的表现已超越了 GPT-5.5 和 Gemini 3.1 Pro 等模型。在实际极限任务测试中,M3 展现出强大的长程自主规划能力,不仅在 12 小时内自主复现了 ICLR 顶级论文的实验,还在没有参考代码的情况下,连续运行 24 小时,调用工具近两千次。在此过程中,M3 将 Hopper 架构上 FP8 矩阵乘法的硬件利用率从 7.6% 提升至 71.3%。此外,在开放式的 PostTrainBench 评测中,M3 能够自主调度完成“数据-训练-迭代”的完整流程。
伴随 MiniMax M3 的发布,稀宇科技还同步推出了专为长程复杂协作设计的 MiniMax Code 智能体产品,以及具备价格竞争力的 Token Plan 和 API 服务。公司承诺将在 10 天内开源模型的权重。MiniMax M3 的问世,不仅打破了此前由海外闭源模型在尖端多模态和长上下文技术领域的垄断,更以全要素开源的模式,显著提升了国内开发者生态的性价比,为人工智能技术的普及和应用提供了新的机遇。
MiniMax M3 的核心竞争力在于其超长上下文处理、原生多模态能力以及强大的自主规划与代码生成能力,这使其在复杂的智能体应用、软件开发辅助以及需要深度理解和生成长篇内容的场景下具有显著优势。其开源策略有望加速国内 AI 生态的创新和发展,降低开发者使用前沿大模型的门槛。