阿里云开源LOGOS大模型,参数少却性能卓越
阿里 ATH-Token Foundry 与中国人民大学高瓴人工智能学院今日联合宣布,正式对外开源其首个融合了统一科学语法的多领域科学生成基础模型 LOGOS。该模型采用纯序列建模范式,在六项代表性科学任务中,均表现出与传统领域专用方法相匹敌甚至更优的性能。

尤为引人注目的是,LOGOS 模型在参数效率方面展现出卓越能力。仅有 1B 参数的 LOGOS-1B 版本,其在多项关键任务上的表现,已成功超越了参数量达到 8×7B 的微软 NatureLM 语言模型,凸显了其精炼高效的设计理念。
LOGOS 模型的核心突破在于其创新的“科学语法”设计,能够统一处理生物大分子、化学实体及界面互作等七大类模态的异构科学对象。通过构建一个包含 44.87B tokens 的大规模预训练语料库,并采用共享词表机制,该模型将蛋白质、小分子等原本结构迥异的科学实体,统一编码为离散的 Token 序列。这一设计使得不同科学对象能在同一生成空间内,通过大模型自回归的方式被深度理解。该模型甚至能够通过“文字描述法”,仅凭序列预测便能构建复杂的空间互作规律,而无需输入繁琐的 3D 坐标信息。

LOGOS 的另一个重要进展是彻底消除了预训练阶段与实际应用之间的隔阂。在传统的科研模式下,不同研究环节往往需要切换模型,导致模型在实际落地应用时需要进行大量微调。LOGOS 模型实现了形式与目标的高度一致性,其预训练数据的序列形式与下游任务的输入输出形式完全匹配。这种高度对齐有效地弥合了预训练与应用之间的鸿沟,使得模型可以直接激活其生成能力,无需复杂的适配层。
作为一款面向科学研究的基础模型,LOGOS 的统一序列建模范式使其在处理生物序列(如 DNA、RNA、蛋白质)以及化学分子(如 SMILES 字符串)等任务时,拥有天然的优势。其“文字描述法”的创新,为科学家们提供了一种更直观、更易于理解和操作的科学数据表达方式,有望降低 AI 在科学研究中的应用门槛。同时,通过开源模型权重、推理代码及技术报告,阿里和中国人民大学此举将极大地推动相关领域的研究进展。
LOGOS 的开源标志着 AI 在科学发现领域迈出了重要一步,其统一的科学语法和卓越的参数效率预示着通用科学基础模型的发展潜力,未来有望加速新材料、新药物等领域的突破性进展。