前OpenAI安全VP翁荔:模型数据喂养的真相
V科技 AI资讯 栏目今日关注一项可能颠覆当前大模型发展方向的深度分析。前OpenAI安全研究副总裁、现Thinking Machines Lab联合创始人翁荔在其最新发表的博客文章《Scaling Laws, Carefully》中,对支撑当前大模型行业巨额投入的核心理论——Scaling Laws(规模法则)进行了详尽的拆解和审视。
翁荔的研究揭示,行业普遍遵循的“规模法则”在数据与模型参数的配比上可能存在根本性偏差。早期的OpenAI研究(Jared Kaplan团队)提出的结论认为,模型参数量应该比训练数据量增长更快,这一观点直接促成了如GPT-3(1750亿参数,3000亿token数据)的设计。然而,两年后DeepMind团队的实验结果却截然相反,他们发现参数量与数据量应等比增长,最佳比例大约为1:20,这一发现得到了后续Llama、DeepSeek等模型的性能验证,它们尽管参数量不及GPT-3,但表现更优。
经过深入分析,翁荔指出Kaplan研究中的偏差可能源于其实验模型规模过小(最大15亿参数),导致在小规模区间拟合出的规律外推至万亿级别时产生系统性误差。此外,Kaplan的研究未将embedding层参数计入统计,而这部分参数在小模型中占比极高。更令人意外的是,近期Epoch AI团队在复现Chinchilla模型的拟合代码时,发现了两个关键bug:损失函数计算错误和核心幂律指数的四舍五入处理。修正后的实验数据有力地支持了数据与参数等比增长的结论。
当前大模型的训练很大程度上依赖于海量数据,但高质量文本数据的枯竭已迫在眉睫,预计将在2026年至2028年间达到顶峰。研究表明,重复使用训练数据带来的边际收益呈指数级衰减,每一次重复训练的效果都在急剧下降。翁荔通过交互式模拟器展示了工程细节的敏感性,即使是微小的拟合精度或噪声水平的调整,都可能导致外推预测产生巨大差异。因此,他最终判断Scaling Laws并非普适的物理定律,而是对工程细节极为敏感的观测性指南。
相关判断维度:
这项关于Scaling Laws的重新审视,对于AI产品的研发具有深远影响。如果数据量增长受限,模型开发将不得不更加侧重于数据效率和模型架构的优化,而非一味追求参数量的激增。这可能意味着未来AI模型的训练将更倾向于“精雕细琢”而非“海量堆砌”。对于开发者而言,理解并应用更精确的Scaling Laws,可能有助于降低训练成本,提升模型性能,尤其是在数据稀疏的特定领域。模型的输入形式(文本、代码、图像等)以及输出的多样性,也将受到数据质量和模型能力的双重制约,高质量、多样化的数据将成为关键的竞争要素。