前OpenAI安全VP翁荔：模型数据喂养的真相

作者 V科技发布时间 2026年06月27日 09:34 浏览量 24 0 评论

V科技 AI资讯栏目今日关注一项可能颠覆当前大模型发展方向的深度分析。前OpenAI安全研究副总裁、现Thinking Machines Lab联合创始人翁荔在其最新发表的博客文章《Scaling Laws， Carefully》中，对支撑当前大模型行业巨额投入的核心理论——Scaling Laws（规模法则）进行了详尽的拆解和审视。

翁荔的研究揭示，行业普遍遵循的“规模法则”在数据与模型参数的配比上可能存在根本性偏差。早期的OpenAI研究（Jared Kaplan团队）提出的结论认为，模型参数量应该比训练数据量增长更快，这一观点直接促成了如GPT-3（1750亿参数，3000亿token数据）的设计。然而，两年后DeepMind团队的实验结果却截然相反，他们发现参数量与数据量应等比增长，最佳比例大约为1:20，这一发现得到了后续Llama、DeepSeek等模型的性能验证，它们尽管参数量不及GPT-3，但表现更优。

经过深入分析，翁荔指出Kaplan研究中的偏差可能源于其实验模型规模过小（最大15亿参数），导致在小规模区间拟合出的规律外推至万亿级别时产生系统性误差。此外，Kaplan的研究未将embedding层参数计入统计，而这部分参数在小模型中占比极高。更令人意外的是，近期Epoch AI团队在复现Chinchilla模型的拟合代码时，发现了两个关键bug：损失函数计算错误和核心幂律指数的四舍五入处理。修正后的实验数据有力地支持了数据与参数等比增长的结论。

当前大模型的训练很大程度上依赖于海量数据，但高质量文本数据的枯竭已迫在眉睫，预计将在2026年至2028年间达到顶峰。研究表明，重复使用训练数据带来的边际收益呈指数级衰减，每一次重复训练的效果都在急剧下降。翁荔通过交互式模拟器展示了工程细节的敏感性，即使是微小的拟合精度或噪声水平的调整，都可能导致外推预测产生巨大差异。因此，他最终判断Scaling Laws并非普适的物理定律，而是对工程细节极为敏感的观测性指南。

相关判断维度：

V科技点评

这项关于Scaling Laws的重新审视，对于AI产品的研发具有深远影响。如果数据量增长受限，模型开发将不得不更加侧重于数据效率和模型架构的优化，而非一味追求参数量的激增。这可能意味着未来AI模型的训练将更倾向于“精雕细琢”而非“海量堆砌”。对于开发者而言，理解并应用更精确的Scaling Laws，可能有助于降低训练成本，提升模型性能，尤其是在数据稀疏的特定领域。模型的输入形式（文本、代码、图像等）以及输出的多样性，也将受到数据质量和模型能力的双重制约，高质量、多样化的数据将成为关键的竞争要素。

前OpenAI安全VP翁荔：模型数据喂养的真相

暂无评论！成为第一个。

发表回复取消回复

Mixdesk

CREATUS.AI

Powered_by Agency

Jeeva.ai

前OpenAI安全VP翁荔：模型数据喂养的真相

相关资讯

暂无评论！成为第一个。

发表回复 取消回复

发表回复取消回复