寒武纪适配 DeepSeek-V4,加速大规模语言模型运行
近日,寒武纪公司宣布,已成功完成对深度求索(DeepSeek)公司最新开源人工智能模型 DeepSeek-V4 的 Day 0 适配。这意味着该模型在发布当日便能实现高效、稳定的运行,为用户提供更佳的人工智能体验。
为了实现这一目标,寒武纪充分发挥了其自主研发的高性能融合算子库 Torch-MLU-Ops 的优势,对 DeepSeek-V4 模型中的 Compressor 和 mHC 等关键模块进行了精细化的加速优化。在此基础上,寒武纪采用了 vLLM(Variable Length Language Model)推理框架,并全面支持了 TP、PP、SP、DP 和 EP 等多种并行计算方式。通过引入通信计算并行、低精度量化以及 PD 分离部署等一系列前沿优化技术,模型在满足严格的延迟约束下,大幅提升了处理速度。
此外,寒武纪深度挖掘了其 MLU 硬件的内在潜力,通过精细化优化 MLU 的访存和排序操作,显著加速了稀疏 Attention 和 Indexer 等核心结构的运行效率。凭借高互联带宽和低通信延迟的硬件特性,分布式推理场景下的通信开销被降至最低,有效提升了整体利用率。
DeepSeek-V4 模型本身具备百万字级别的超长上下文处理能力,在 Agent 能力、世界知识储备及推理性能方面,均达到了国内外开源领域的领先水平。此次寒武纪的适配工作,将使得用户能够更早、更高效地体验到这一强大模型的优势,例如其超长上下文记忆带来的全新人机交互感受。
此次寒武纪与 DeepSeek-V4 的成功适配,不仅体现了寒武纪在高性能 AI 计算领域的深厚技术积累和快速响应能力,也为推动大规模 AI 模型的高效落地和广泛应用奠定了坚实基础。