11日前

MolReFlect:分子とテキスト間の細粒度なコンテキスト内アライメントへの道標

{Qing Li, Yuqiang Li, Dongzhan Zhou, Wenqi Fan, Di Zhang, Jingdi Lei, Wei Liu, Yunqing Liu, Jiatong Li}
MolReFlect:分子とテキスト間の細粒度なコンテキスト内アライメントへの道標
要約

分子の発見は、私たちが服用する医薬品から使用する材料に至るまで、あらゆる分野に影響を与える重要な研究分野である。近年、大規模言語モデル(LLM)は分子の理解および生成において広く活用されているが、分子とその対応するキャプション(説明文)との整合性(alignment)は依然として大きな課題である。従来の研究では、分子を一般的なSMILES文字列や分子グラフとして扱うことが多く、分子の部分構造と記述的テキスト表現との細粒度な対応関係を無視している。この細粒度な対応は、正確かつ説明可能な予測を実現する上で不可欠である。そこで本研究では、分子とキャプションの細粒度な文脈的整合を実現するための新しい教師-生徒フレームワーク「MolReFlect」を提案する。本手法では、まず大規模な教師用LLMを用いて、分子のキャプションやSMILES文字列から重要な語句を直接抽出し、それらを対応する部分構造や特徴に紐づけることで、詳細な整合性をラベル付けする。その後、これらのラベルを精緻化するために、「文脈内選択的リフレクション(In-Context Selective Reflection)」を提案する。この手法は、過去の抽出結果を文脈例として取得し、教師LLMがそれらをもとに再評価(リフレクション)を行うようにし、その後、小さな学生LLMが文脈内でのリフレクション結果と過去の抽出結果の中から最適なものを選択する。さらに、Chain-of-Thought形式を活用した「文脈内分子チューニング(Chain-of-Thought In-Context Molecule Tuning)」により、細粒度な整合性情報と推論プロセスを統合し、学生LLMの学習プロセスを強化する。実験結果から、MolReFlectを用いることで、Mistral-7BのようなLLMが従来のベースラインを顕著に上回り、ChEBI-20データセットにおいて最先端(SOTA)の性能を達成した。本研究の進展は、分子-キャプション翻訳タスクにおけるLLMの生成能力を向上させるだけでなく、予測の説明可能性を高めるためのより透明性のあるフレームワークの構築にも貢献している。

MolReFlect:分子とテキスト間の細粒度なコンテキスト内アライメントへの道標 | 最新論文 | HyperAI超神経