寒武纪DeepSeek-V4全系列模型Day0适配及代码开源
V科技 AI资讯:寒武纪已成功完成对深度求索(DeepSeek)最新发布的DeepSeek-V4全系列大模型进行“Day0”级别的适配,并同步开源了相关的优化代码。此次适配工作覆盖了285B参数的Flash版本和1.6T参数的Pro版本,确保这些模型在寒武纪自家的硬件平台上能够实现即时、稳定的运行。
为了应对DeepSeek-V4模型所采用的稀疏注意力机制和特殊的压缩结构,寒武纪在其vLLM推理框架中,通过自研的向量融合算子库Torch-MLU-Ops,对Compressor等关键模块进行了深度优化和加速。利用BangC高性能编程语言,寒武纪的工程师们精心开发了包括稀疏Attention和GroupGemm在内的一系列核心算子优化内核,并全面集成了TP/PP/SP/DP/EP五维混合并行策略,支持低精度量化和PD分离部署,以此在满足延迟要求的同时,大幅提升了端到端推理的词元吞吐量。
在硬件层面,寒武纪充分利用了其MLU(Machine Learning Unit)在访存和排序方面的加速能力,以应对DeepSeek-V4模型复杂且独特的索引结构。通过其高互联带宽和低延迟的通信特性,寒武纪的解决方案有效减少了Prefill和Decode阶段的通信开销,显著提高了推理过程中的硬件利用率。
DeepSeek-V4模型以其百万级别的超长上下文窗口和出色的逻辑推理能力,对底层算力架构提出了极高的挑战。寒武纪能在模型发布当天就实现如此快速和全面的适配,不仅证明了国产算力平台承载超大规模、复杂AI模型的能力,也标志着国内AI产业链在软硬件协同发展上已达到新的成熟阶段,为未来大模型的广泛应用提供了坚实的算力基础。
寒武纪此次在DeepSeek-V4发布当日即完成适配并开源优化代码,展现了其在国产AI算力领域的快速响应能力和深厚技术积累,为大模型生态的进一步繁荣注入了新的动力。