阿里开源 LOGOS 模型,重构科研范式
阿里巴巴 ATH-Token Foundry 与中国人民大学高瓴人工智能学院于 6 月 18 日联合发布了名为 LOGOS 的多领域科学基础模型,此举标志着人工智能在科研领域正迎来一个重要的发展节点。LOGOS 的问世,旨在为科学研究构建一套通用的“科学语言”,以期打破不同学科间长期存在的沟通壁垒。
过去,诸如蛋白质、小分子和复杂材料等科学对象,在人工智能的眼中往往被视为彼此独立、难以互相理解的数据孤岛。为了实现这些异构科学对象的有效交互,以往的研究常依赖于成本高昂的 3D 坐标信息或专门设计的几何神经网络,这不仅带来了巨大的计算负担,也严重限制了模型的通用性,导致每次更换研究场景都需要重新构建模型。

LOGOS 的核心突破在于其创新的模型设计。它引入了一套共享的词汇表,能够以统一的离散 Token 序列来编码蛋白质、抗体、小分子以及 MOF 材料等多种异构科学对象。这意味着模型不再依赖于对昂贵的 3D 空间信息的直接处理,而是通过类似自然语言处理的序列预测方式,直接学习并构建复杂的 3D 空间相互作用规律,从而实现跨学科数据的底层知识共享。

在参数效率方面,LOGOS 表现尤为突出。其 LOGOS-1B 版本以远低于同行模型的参数量,在多项关键科学任务上取得了超越微软 NatureLM 的性能。更重要的是,LOGOS 有效解决了预训练模型与下游任务之间的“目标偏差”问题,使得模型能够直接激活其生成能力,无需进行繁琐的微调,极大地降低了科研人员在使用 AI 工具进行科学探索的门槛。
LOGOS 的构建离不开其庞大的预训练语料库,该语料库涵盖了 7 类模态,总计 44.87B tokens。目前,项目方已将模型的权重、推理代码以及详细的技术报告全部开源,研究者可通过 HuggingFace 或 GitHub 平台进行访问和获取。
LOGOS 的出现为科研自动化注入了强大的动力,并为未来开发更强大的多模态科学大模型树立了新的技术标杆。其开源的性质预示着科学研究在“语言”的统一性和效率方面,将迎来前所未有的变革。
LOGOS 模型通过其创新的 Token 序列编码方式,显著降低了 AI 在理解和生成复杂三维科学结构时的计算成本和技术门槛,尤其适合需要处理多种异构科学数据的研究场景,如药物发现、材料设计等。模型可以直接进行文本式的输入输出,大大简化了科研人员与 AI 模型的交互流程。