HyperAI超神经
Back to Headlines

AI驱动的分子宇宙LLM:加速电池材料探索的新利器

4 天前

应用具有推理能力的专业大型语言模型加速电池研究 科学研究在复杂的领域如电池创新中常常受到手动评估材料的限制,通常每天只能评估数十个候选材料,严重制约了研究进展。然而,通过使用针对特定领域的大型语言模型(LLMs)以及增强其推理能力,这一状况正在发生改变。本文将探讨SES AI公司如何利用这一方法,通过构建其特有的Molecular Universe LLM,推动科学发现并提高专家的生产力。 问题的起因 一般用途的大型语言模型尽管在多个领域都显示出巨大的潜力,但在处理特定任务时往往表现不佳,因为它们缺乏专门术语和上下文知识的充分训练。这导致在科学和工程等高度专业化领域的应用效果不理想。为弥补这一差距,SES AI选择对已有的基础模型进行领域适应性预训练(DAPT),并通过指令微调和推理对齐,提升模型在特定专业任务中的表现。 建模过程及步骤 基础设施设置 SES AI的Molecular Universe LLM基于具备700亿参数的Llama 3.1模型,经过领域适应性和推理能力的加强,显著提升了性能。训练是在NVIDIA DGX Cloud平台上,利用128个NVIDIA H100 GPU完成的。DGX Cloud是一个完全管理的人工智能训练平台,支持高效的分布式训练。NVIDIA NeMo Framework则提供了强大的开发和部署环境,支持最先进的模型和算法,确保了模型训练的高度吞吐量和可扩展性。 步骤1:持续预训练 为了使模型具备电池研究的专门知识,SES AI对Llama 3.1 700亿模型进行了连续预训练。预训练语料库包括1900万篇从同行评审期刊和预印本存储库获取的开放源代码论文。通过NeMo Curator对数据进行精细处理,包括去除重复项和低质量数据,最终生成1700万条高质量、独特的记录。 步骤2:监督微调 监督微调(SFT)是为了提高模型在特定任务中的指令跟随能力和响应生成能力。SES AI利用NVIDIA Llama 3.1 NIM生成合成数据,创建了一个包含25万条样本的高质量SFT数据集,涵盖了问答、总结、理解与多选题四种任务。通过在NeMo框架上进行SFT,形成了最终的Molecular Universe Chat模型。 步骤3:高质推理数据的后期训练 即使经过领域适应性预训练和指令微调,模型在解决复杂的科学问题时仍显得不足。因此,SES AI对Molecular Universe Chat模型进行了更高层次的推理监督微调,使用了一组精心筛选的约2.5万个样本。这些样本经过聚类和偏向于复杂推理的均匀采样,使模型能够更好地处理多步推理问题。最终,后期训练仅用了64个H100 GPU在12小时内完成,大幅提高了模型的事实准确性和推理能力。 结果与影响 经过训练和优化,Molecular Universe Reasoning LLM在科学领域内表现出色。在GPQA Diamond等基准测试中,取得了0.72的分数,超越了许多知名且参数量更大的开源模型,如DeepSeek-R1。此外,在电池相关任务如问答、多选题、理解、总结和推理中,该模型的表现也优于LLaMA 3.1等其他现有模型。尽管GPT-o1在某些任务中的表现略优,但Molecular Universe Reasoning LLM凭借更少的参数和更低的训练成本,展示了其竞争力。 展望未来 SES AI计划进一步优化Molecular Universe Reasoning LLM,通过构建专门的电池领域数据集和探索强化学习与人类反馈结合的方法,提高任务相关推理能力。该模型已经整合到SES AI的材料发现平台Molecular Universe中,帮助研究人员和行业专业人士快速探索候选小分子数据库。 业内评价 Molecular Universe LLM的成功展示了领域适应性和推理对齐策略的有效性,特别是在中等规模(小于1000亿参数)模型上的应用。这一成果不仅提高了科学研究的效率,也为其他高度专业化的领域提供了一个可行的路径。SES AI作为一家专门从事电池创新的公司,这次突破表明其在人工智能技术上的巨大投入已经开始取得显著成效。未来,随着更多类似模型的推出,科学发现的过程将变得更快、更经济、更高效。

Related Links