英伟达发布双塔 AI 模型,文本生成提速 2.42 倍
英伟达近日宣布推出一款名为 Nemotron-Labs-TwoTower 的新型语言模型,旨在突破当前大型语言模型在生成速度上的瓶颈。该模型已于 7 月 2 日正式发布,并通过 Huggingface 平台向公众开源了其模型权重,开发者可直接获取并进行二次开发和部署。

Nemotron-Labs-TwoTower 的核心创新在于其采用了 600 亿(60B)参数的“双塔”架构。具体而言,它将模型拆解为两个独立的 300 亿(30B)参数神经网络,这两个神经网络协同工作,极大地提升了文本生成的效率。其中,上下文塔负责理解和保留整个文本的语义信息,并保持冻结状态;而去噪塔则专注于利用扩散机制并行生成文本内容。通过交叉注意力机制,两个塔之间能够高效地交换和整合数据,从而实现并行化的文本输出。
与传统逐个词元(Token)串行生成文本的模型不同,Nemotron-Labs-TwoTower 的双塔设计允许模型并行地写入文本,这使得推理吞吐量得到了显著的提升。根据相关基准测试结果,该模型在保持原有模型 98.7% 综合能力的同时,文本生成吞吐速度实现了 2.42 倍的飞跃。虽然在代码和数学类任务上可能存在微小的性能下降,但整体而言,模型在速度和输出质量之间取得了良好的平衡。
作为一款开源模型,Nemotron-Labs-TwoTower 的权重可以被自由下载和使用,为开发者提供了广泛的应用可能性。在硬件配置方面,模型完全发挥双塔架构的优势需要配备两张 H100 或 A100 80GB 显卡。若仅使用单卡,则模型将退化为纯自回归模式。该模型在常识推理、数学计算、代码生成和阅读理解等多个维度的测试中,表现均与原版模型持平,展示了其在不同场景下的泛化能力和可靠性。
Nemotron-Labs-TwoTower 的出现,为解决大型语言模型生成速度慢这一痛点提供了新的思路。其并行生成机制对于需要快速响应的应用场景,如实时对话系统、内容创作辅助等具有显著优势。开发者可以基于此模型,进一步探索和优化其在特定领域的应用,例如通过调整专家模块的路由策略来优化特定任务的表现,或是将其集成到更复杂的AI工作流中,以期在保持高质量输出的同时,大幅缩短生成时间。