英伟达 Nemotron-Labs-TwoTower 扩散模型性能翻倍
英伟达近期推出了一项突破性的技术,旨在显著提升大型语言模型的生成效率。该公司的 Nemotron-Labs-TwoTower 扩散语言模型于 7 月 1 日正式开源,通过创新的“双塔”架构,有效解决了传统自回归模型在吞吐量方面的瓶颈。
传统自回归模型在生成文本时,需要按顺序逐个解码 token,这一串行处理方式在面对海量文本合成任务时效率低下。英伟达的新模型则采用了“双塔”设计,将模型拆分为两个独立但协同工作的塔。其中,“上下文塔”负责处理输入提示词并保持原有的语言理解能力,而“去噪器塔”则专注于并行生成和优化 token,从而实现效率的飞跃。
这种架构革新在性能与速度之间取得了优异的平衡。在搭载两块 H100 GPU 的环境中进行测试,该模型在保持较高生成质量(与基线模型相比保留了 98.7% 的质量)的同时,其实际生成吞吐量实现了 2.42 倍的提升。对于需要大规模生成合成文本的数据团队来说,这意味着效率的大幅提高。
Nemotron-Labs-TwoTower 模型提供了极大的灵活性,支持扩散模式、模拟自回归(AR)模式以及标准自回归模式等多种解码方式,用户可以根据具体应用场景进行选择。该模型以开放权重形式发布,并遵循 NVIDIA Nemotron 开放模型许可协议,允许商业用途。
尽管在代码生成和数学推理任务上,该模型与原始基线模型相比可能存在轻微的性能差距,并且对 GPU 显存有一定要求,但它为加速大型模型推理提供了极具前景的方向。随着 AI 应用场景的不断扩展和对实时性、大规模处理能力需求的增加,通过优化模型架构来提升生成速度将是未来发展的重要趋势。