17 天前

CoTox:基于思维链的分子毒性推理与预测

Jueon Park, Yein Park, Minju Song, Soyon Park, Donghyeon Lee, Seungheun Baek, Jaewoo Kang
CoTox:基于思维链的分子毒性推理与预测
摘要

药物毒性仍是药物研发中的重大挑战。近年来,机器学习模型在体外毒性预测方面取得了进展,但其对标注数据的依赖以及可解释性不足,限制了其应用范围,尤其难以捕捉由复杂生物机制驱动的器官特异性毒性。大型语言模型(LLMs)通过逐步推理和文本数据的整合,提供了一种有前景的替代方案,但以往的方法缺乏生物背景信息和透明的推理逻辑。为解决这一问题,我们提出CoTox——一种新型框架,将大型语言模型与思维链(Chain-of-Thought, CoT)推理相结合,用于多毒性预测。CoTox融合化学结构数据、生物通路信息及基因本体(Gene Ontology, GO)术语,通过逐步推理生成可解释的毒性预测结果。基于GPT-4o的实验表明,CoTox在性能上优于传统机器学习与深度学习模型。我们进一步评估了CoTox在多种大型语言模型上的表现,以确定其最适用的场景。此外,我们发现采用IUPAC命名法表示化学结构,相较于SMILES编码,更易于被LLMs理解,从而显著提升模型的推理能力并改善预测性能。为验证其在药物研发中的实际应用价值,我们模拟了药物对相关细胞类型的处理过程,并将所得生物学背景信息整合进CoTox框架。该方法使CoTox能够生成与生理响应一致的毒性预测结果,案例研究已证实其有效性。这一成果凸显了基于大型语言模型的框架在提升预测可解释性、支持早期药物安全性评估方面的巨大潜力。本研究使用的代码与提示模板已开源,地址为:https://github.com/dmis-lab/CoTox。