英伟达发布双塔 AI 模型，文本生成提速 2.42 倍

作者 V科技发布时间 2026年07月03日 16:05 浏览量 17 0 评论

英伟达近日宣布推出一款名为 Nemotron-Labs-TwoTower 的新型语言模型，旨在突破当前大型语言模型在生成速度上的瓶颈。该模型已于 7 月 2 日正式发布，并通过 Huggingface 平台向公众开源了其模型权重，开发者可直接获取并进行二次开发和部署。

Nemotron-Labs-TwoTower 的核心创新在于其采用了 600 亿（60B）参数的“双塔”架构。具体而言，它将模型拆解为两个独立的 300 亿（30B）参数神经网络，这两个神经网络协同工作，极大地提升了文本生成的效率。其中，上下文塔负责理解和保留整个文本的语义信息，并保持冻结状态；而去噪塔则专注于利用扩散机制并行生成文本内容。通过交叉注意力机制，两个塔之间能够高效地交换和整合数据，从而实现并行化的文本输出。

与传统逐个词元（Token）串行生成文本的模型不同，Nemotron-Labs-TwoTower 的双塔设计允许模型并行地写入文本，这使得推理吞吐量得到了显著的提升。根据相关基准测试结果，该模型在保持原有模型 98.7% 综合能力的同时，文本生成吞吐速度实现了 2.42 倍的飞跃。虽然在代码和数学类任务上可能存在微小的性能下降，但整体而言，模型在速度和输出质量之间取得了良好的平衡。

V科技点评

作为一款开源模型，Nemotron-Labs-TwoTower 的权重可以被自由下载和使用，为开发者提供了广泛的应用可能性。在硬件配置方面，模型完全发挥双塔架构的优势需要配备两张 H100 或 A100 80GB 显卡。若仅使用单卡，则模型将退化为纯自回归模式。该模型在常识推理、数学计算、代码生成和阅读理解等多个维度的测试中，表现均与原版模型持平，展示了其在不同场景下的泛化能力和可靠性。

Nemotron-Labs-TwoTower 的出现，为解决大型语言模型生成速度慢这一痛点提供了新的思路。其并行生成机制对于需要快速响应的应用场景，如实时对话系统、内容创作辅助等具有显著优势。开发者可以基于此模型，进一步探索和优化其在特定领域的应用，例如通过调整专家模块的路由策略来优化特定任务的表现，或是将其集成到更复杂的AI工作流中，以期在保持高质量输出的同时，大幅缩短生成时间。

英伟达发布双塔 AI 模型，文本生成提速 2.42 倍

暂无评论！成为第一个。

发表回复取消回复

Mixdesk

CREATUS.AI

Powered_by Agency

Jeeva.ai

英伟达发布双塔 AI 模型，文本生成提速 2.42 倍

相关资讯

暂无评论！成为第一个。

发表回复 取消回复

发表回复取消回复