Mol-R1:分子発見における明示的長期CoT推論への挑戦

大規模言語モデル(LLM)において、DeepSeek-R1やQWQなど、明示的かつ長大な思考過程(Long CoT)を採用する推論モデルは、常識的推論や数学的推論において優れた性能を発揮しており、強力な推論能力を示している。しかし、こうしたLong-CoTモデルは、分子発見など知識集約型の分野において、その能力の限界と低効率性がしばしば指摘されている。この分野での成功には、分子構造や化学的原則といった専門知識の正確な理解が不可欠であり、分子データの本質的な複雑さや、高品質な専門家ラベルの不足という課題により、実現が困難である。このギャップを埋めるために、我々は、テキストベースの分子生成タスクにおいて、R1型の明示的長大思考過程(Explicit Long-CoT)推論LLMの説明可能性と推論性能を向上させるための新規フレームワーク「Mol-R1」を提案する。本研究では、まず、文脈内蒸留を用いた事前規則制御(Prior Regulation via In-context Distillation, PRID)という専用の蒸留戦略により、高品質な推論データセットを構築する。このデータセットを基盤として、分子反復適応(Molecular Iterative Adaptation, MoIA)と呼ばれる洗練された学習戦略を導入する。MoIAは、監視下微調整(Supervised Fine-tuning, SFT)と強化された方策最適化(Reinforced Policy Optimization, RPO)を反復的に組み合わせる手法であり、R1型推論モデルの分子発見における推論性能を特化して向上させるために設計されている。最後に、Mol-R1のテキストベース分子推論生成タスクにおける性能を評価した結果、既存のベースラインに対して優れた性能を示した。