HRM-Text 1B模型跑分逼近7B，计算架构重塑

作者 V科技发布时间 2026年06月12日 13:22 浏览量 29 0 评论

Sapient Intelligence 推出的 HRM-Text 模型，以其约 1B 的参数量，在 MATH 和 GSM8K 等基准测试中取得了令人瞩目的成绩，分别达到 56.2 分和 84.5 分。更令人惊讶的是，其训练成本极低，仅使用 16 块 H100 GPU 运行不到两天，总成本约 1500 美元。这标志着该模型在探索“更高效的预训练”方面迈出了重要一步，直接挑战了当前大模型行业普遍依赖规模扩张的“更大更强”逻辑。

HRM-Text 的创新之处在于其对模型计算方式和训练目标的双重优化。首先，它引入了一种内部多轮迭代的计算机制。不同于传统 Transformer 模型一层层线性处理信息，HRM-Text 将模型划分为高层（H）和低层（L）两个模块，模拟了项目经理和执行人员的协作模式。这种分层设计使得模型在输出最终结果前，能够进行多次内部“思考”和修正，大幅提升了有效计算深度。例如，一个 1B 参数模型在输出一个 token 前，可能经历了高达 8 轮的内部迭代。为了确保训练稳定性，HRM-Text 设计了 MagicNorm 机制来控制激活值累积，并采用渐进式“追责”策略，逐步扩大模型对计算步骤的责任范围。

其次，HRM-Text 在训练目标上也进行了重大调整。传统的“下一个 token 预测”模式，迫使模型学习记忆和续写所有文本，导致大量算力被浪费在“背题目”上。HRM-Text 则将计算损失集中在答案部分，即模型只学习如何生成正确的回答，而非预测所有可能的接续。配合 PrefixLM 注意力掩码，指令部分能够相互参考以形成整体理解，而在生成答案时，则切换到标准模式，避免“偷看”未来信息。这种精炼的训练策略，使得模型能够更专注于提升解题能力。

实验数据显示，HRM-Text 的多项优化叠加效果显著。例如，在 ARC-Challenge 测试中，一个标准 1B Transformer 模型得分为 51.91，仅优化训练目标后提升至 62.88，引入 PrefixLM 后达到 74.32，最终采用 HRM 架构后更是飙升至 81.91。这表明其架构和训练方法的协同作用至关重要。HRM-Text 在 MATH、GSM8K 等任务型基准上的优异表现，使其更像是一位“推理专家”。但团队也坦承，有限的数据和参数使其在 MMLU 这类广谱知识测试上不占优势，难以覆盖知识的长尾。未来的发展方向可能包括将这种擅长计算的“小脑”模型与负责知识存储的“大脑”（如检索系统）解耦合作。

HRM-Text 的创新思路已获得学界认可。例如，图灵奖得主 Yoshua Bengio 发布的《Generative Recursive Reasoning》论文中的 GRAM 模型，便借鉴了 HRM 的分层递归路线，并引入了更复杂的概率推理机制，预示着高效预训练模型的研究方向正朝着更具创新性的路径发展。

HRM-Text 的出现，为大模型领域提供了一种新的视角，即通过优化计算和训练策略，可以在有限的资源下实现高效的模型性能。它尤其适合那些对特定推理任务有较高要求的应用场景，展现了小参数模型在特定领域内媲美甚至超越大模型的潜力。

Sapient Intelligence 提出的 HRM-Text 模型，以其仅 1B 参数的体量，在 MATH（56.2 分）和 GSM8K（84.5 分）两项数学推理基准测试中取得了令人瞩目的成绩，其表现已接近 7B 参数模型。尤为关键的是，这一从零开始的预训练过程，仅耗费约 1500 美元、使用了 16 块 NVIDIA Tesla H100 GPU 不到两天的时间，显著颠覆了当前大模型领域普遍遵循的“参数越大越强”的规模定律。

HRM-Text 的创新之处在于，它并未选择通过单纯增加模型规模来提升性能，而是聚焦于优化模型的“思考”与“学习”方式。具体而言，它引入了一种新颖的内部计算机制，将模型划分为高层规划模块（H）和低层执行模块（L），通过多轮内部迭代修正来提升计算深度，使得有限参数的计算效率得到极大挖掘。同时，为了应对循环计算带来的稳定性挑战，模型采用了 MagicNorm 归一化技术和渐进式“追责”策略，确保训练过程的稳定进行。

在训练目标上，HRM-Text 放弃了传统的“下一个 token 预测”模式，转而专注于只计算答案部分的损失，要求模型直接学习生成最终答案，而非“背诵”训练数据。这种策略旨在避免算力被消耗在无效的文本序列预测上，从而更高效地实现智能目标。然而，这种高度内循环的设计也带来了更高的推理成本，并且在向更大规模扩展时，其稳定性问题可能面临更严峻的考验。

评测维度：模型效率与架构创新

HRM-Text 的出现，为大模型的研究与开发开辟了新的思路，即“变巧”而非仅仅“变大”。其在极低的训练成本下，实现了对数学推理等复杂任务的优秀表现，有力证明了在算力与数据有限的情况下，通过精妙的架构设计和训练策略，同样能够实现高效能的模型。这对于资源有限的研究机构或希望降低大模型部署成本的企业来说，具有重要的借鉴意义。然而，其独特的内部循环机制在推理阶段的算力消耗以及模型在更广泛、更开放场景下的泛化能力，仍是未来需要持续关注和验证的关键点。

HRM-Text 的核心贡献在于挑战了行业对模型增长路径的固有认知。它提供了一种在成本、效率与性能之间取得平衡的可能性。虽然其专注于特定领域（如数学推理）的表现抢眼，但其“变巧”的理念和技术，预示着下一代人工智能的发展，或许将更多地体现在模型如何更深层、更智慧地进行计算，而非仅仅堆砌参数。

HRM-Text：以“巧思”挑战“规模定律”，小参数模型能否比肩巨头？

在人工智能领域，参数规模往往与能力划等号。然而，Sapient Intelligence提出的HRM-Text模型，以仅约10亿参数的体量，在MATH基准测试中斩获56.2分，并在GSM8K上达到84.5分，其表现已逼近不少拥有数亿乃至数十亿参数的模型。更令人瞩目的是，这一成就并非通过微调实现，而是从零开始预训练。训练过程仅耗费16块NVIDIA H100 GPU不到两天的算力，成本约1500美元，这无疑是对当前“越大越好”的规模化发展趋势的有力挑战。

HRM-Text 的核心创新在于其对Transformer架构的重新设计，尤其是在注意力机制和训练目标上进行了优化。通过采用PrefixLM注意力掩码，指令部分能够相互“看见”，从而实现整体理解，而在答案生成阶段则切换回标准的单向生成模式，避免了信息泄露。这种设计旨在让模型更专注于解决问题，而不是仅仅进行泛泛的知识填充。消融实验结果显示，仅改变训练目标（如仅预测回答）已能显著提升模型性能，而PrefixLM的引入和HRM架构的采用，更是将ARC-Challenge等任务的得分从51.91提升至81.91，证明了这些改动的协同效应。

这种“专注解题”的设计思路，使得HRM-Text在MATH、GSM8K等任务型基准上表现突出，但其在MMLU这类需要广谱知识覆盖的测试中并未展现出领先优势。团队坦承，有限的数据和参数限制了其知识长尾的覆盖能力。这意味着HRM-Text更像是一位“推理专家”，而非“全知全能的百科全书”。未来的发展方向可能在于解耦其擅长计算的“小脑”与负责知识存储的“大脑”（如检索系统或记忆模块），实现更高效的协同工作。

V科技点评

HRM-Text 所展现的技术路线已引起业界的广泛关注，图灵奖得主Yoshua Bengio团队发布的GRAM模型，也沿着HRM的分层递归思路，并引入了更复杂的概率推理机制。尽管HRM-Text并非完美的解决方案，其推理成本相对较高，且大规模扩展时面临稳定性挑战，但它有力地证明了除了“变大”，模型还可以通过“变巧”来提升能力。这种“巧思”的可能性，在一个深受规模定律影响的行业中，预示着新的发展方向：下一代人工智能的进步，或许不仅仅源于参数和数据的增长，更在于对模型“思考方式”的根本性重塑。

HRM-Text 的出现，为AI模型发展注入了新的思考维度。其核心在于通过架构和训练策略的创新，在有限的参数下实现高效的推理能力，特别是在数学和逻辑推理等领域展现出强劲实力。然而，受限于参数规模，其知识覆盖的广度有所不足，更适合作为特定任务的“专精型”模型。对于需要强大计算和推理能力，但对知识广度要求不那么极致的应用场景，HRM-Text 提供了极具吸引力的成本效益选项。未来，若能有效结合外部知识库，其潜力将得到进一步释放。

HRM-Text 1B模型跑分逼近7B，计算架构重塑

评测维度：模型效率与架构创新

HRM-Text：以“巧思”挑战“规模定律”，小参数模型能否比肩巨头？

暂无评论！成为第一个。

发表回复取消回复

Mixdesk

CREATUS.AI

Powered_by Agency

Jeeva.ai

HRM-Text 1B模型跑分逼近7B，计算架构重塑

评测维度：模型效率与架构创新

HRM-Text：以“巧思”挑战“规模定律”，小参数模型能否比肩巨头？

相关资讯

暂无评论！成为第一个。

发表回复 取消回复

发表回复取消回复