大規模言語モデルを用いた分子キャプション翻訳における分子発見の強化: ChatGPTの視点

分子の発見は、さまざまな科学分野において重要な役割を果たし、カスタマイズされた材料や薬剤の設計を進展させています。しかし、既存の方法の多くは専門家の知識に大きく依存しており、過度な計算コストが必要であるか、または最適でない性能に苦しんでいます。一方で、ChatGPTのような大規模言語モデル(Large Language Models: LLMs)は、自然言語理解、汎化能力、およびコンテキスト内学習(In-Context Learning: ICL)という強力な機能により、さまざまなクロスモーダルタスクで優れた性能を示しており、分子の発見を進展させるための画期的な機会を提供しています。これまでのいくつかの研究ではLLMsをこのタスクに適用しようと試みられていますが、ドメイン固有のコーパスの欠如と専門的なLLMsの訓練における困難さが依然として課題となっています。本研究では、分子キャプション翻訳向けの大規模言語モデルベースフレームワーク(MolReGPT)を提案します。ここで導入されるコンテキスト内少ショット分子学習パラダイム(In-Context Few-Shot Molecule Learning paradigm)は、ドメイン固有の事前学習や微調整なしにChatGPTなどのLLMsがコンテキスト内学習能力を発揮できるようにするものです。MolReGPTは分子類似性の原理を利用し、ローカルデータベースから類似した分子とそのテキスト記述を検索して、LLMsがコンテキスト例からタスク知識を学習できるようにします。私たちはMolReGPTの有効性を分子キャプション翻訳において評価しました。これには分子理解とテキストに基づく分子生成が含まれます。実験結果は、追加訓練なしでMolT5-largeと同等でありながらMolT5-baseよりも優れた性能を示しており、微調整済みモデルと比較してMolReGPTが優れていることを示しています。私たちが知る限りでは、MolReGPTはコンテキスト内学習を利用して分子キャプション翻訳を行い、分子発見を進展させる初めての研究です。本研究はLLMsの応用範囲を拡大するとともに、新しいパラダイムとして分子発見と設計に貢献します。