CoTox:思考過程に基づく分子毒性推論と予測

薬物の毒性は、医薬品開発における主要な課題の一つである。近年、機械学習モデルはin silicoでの毒性予測において著しい進展を遂げたが、アノテーション済みデータに依存する点や解釈可能性の欠如により、その適用範囲には限界がある。特に、複雑な生物学的メカニズムによって引き起こされる臓器特異的毒性を捉える能力に課題が残っている。一方、大規模言語モデル(LLM)は、段階的推論(chain-of-thought, CoT)とテキストデータの統合によって、有望な代替手段を提供しているが、これまでのアプローチは生物学的文脈の欠如や透明性に乏しい推論根拠を抱えていた。この問題に対処するため、本研究では、LLMとCoT推論を統合した新しいフレームワーク「CoTox」を提案する。CoToxは、化学構造データ、生物学的経路情報、および遺伝子オントロジー(GO)用語を組み合わせ、段階的な推論を通じて解釈可能な多様な毒性予測を実現する。GPT-4oを用いた実験により、CoToxが従来の機械学習および深層学習モデルを上回る性能を発揮することを示した。さらに、複数のLLMを用いた比較検証により、CoToxがどのモデルにおいて最も効果的であるかを明らかにした。また、SMILES記法よりもLLMにとって理解しやすいIUPAC名を用いて化学構造を表現することで、モデルの推論能力が向上し、予測精度も改善されることを確認した。薬物開発における実用性を検証するため、関連する細胞系に対する薬物処理をシミュレーションし、その結果得られた生物学的文脈をCoToxフレームワークに組み込んだ。このアプローチにより、CoToxは生理的反応と整合した毒性予測を生成できることを、事例研究を通じて示した。本結果は、LLMベースのフレームワークが解釈可能性を高め、早期段階の薬物安全性評価を支援する可能性を示している。本研究で用いたコードおよびプロンプトは、https://github.com/dmis-lab/CoTox にて公開されている。