NVIDIA は、思考連鎖分子合成のアナロジーを活用して超高再構成率とパス多様性を実現する ReaSyn を提案しています。

特色图像

現代の創薬における核心的な課題は、ほぼ無限の化学空間から治療効果を持つ分子を正確に特定することにあります。従来の創薬はしばしば二重のジレンマに直面します。化学空間は極めて広大で、わずか10個の原子からなる分子の数は10⁶⁰にも達するため、スクリーニングは干し草の山から針を探すような困難を伴います。さらに、候補分子は活性、毒性、溶解性など、複数の要件を満たす必要があります。その結果、開発サイクルは10年を超え、コストは数十億ドルに上り、成功率は10%未満にとどまることがよくあります。

分子生成モデルはかつて、この分野で有望視されていました。分子構造生成をアルゴリズムでシミュレートするこの技術は、発見サイクルを大幅に短縮し、「オンデマンド設計」さえも可能にすると期待されていました。しかし実際には、モデルで生成された分子は実験室で合成するのが難しいことがしばしばありました。この「紙ベース」という制約が、その実用的価値を大きく制限していました。

このボトルネックを打破するために、学術界は2つの戦略を試みてきました。1つは「合成可能性」を最適化目標とし、スコアリングによって合成しやすい分子の生成を誘導する方法です。しかし、構造と合成可能性の関係が複雑であり、実験変数をスコアリングでカバーすることが難しいため、効果は限定的です。もう1つは、モデルを既知の合成可能な分子のみの探索に限定する方法です。これは制御性を向上させるものの、構造革新を犠牲にしてしまいます。 そのため、「合成可能な投影」戦略が注目を集めています。その中核は、合成不可能な分子を、類似の構造と明確な合成経路を持つ類似体に「修正」することです。この戦略は、複数の生成方法を柔軟に統合して、活性化合物の拡張やリードの最適化などのタスクをサポートできます。

この文脈では、NVIDIAの研究チームが立ち上げた、統合推論機能を備えた効率的で合成可能な分子投影フレームワークであるReaSynは、反応の連鎖(CoR)表現を採用し、合成パスをLLMの思考の連鎖(CoT)推論パスと見なすことで、分子合成の実際的な問題を解決するための新しい道が開かれました。

合成可能な分子の再構築においては、ReaSyn は最高の再構築率とパス多様性を達成しました。また、合成可能なターゲット指向分子最適化において最高の最適化パフォーマンスを達成し、合成可能なヒット拡張タスクにおいて従来の方法を大幅に上回りました。

関連する研究結果は、「連鎖反応による分子合成可能性の再考」というタイトルでarXivに掲載されました。

研究のハイライト:

* この研究では、合成経路を推論のための説明可能な思考連鎖に変換するためのReaSynフレームワークと反応連鎖(CoR)表現を提案します。

* カスタマイズされた RL 微調整および計算拡張ソリューションにより、モデルの探索効率と最適化パフォーマンスが大幅に向上します。

* マルチタスク実験を通じて、合成可能な分子の生成と最適化におけるフレームワークの有効性と汎用性が確認されました。


用紙のアドレス:
https://arxiv.org/abs/2509.16084
公式アカウントをフォローし、「ReaSyn」と返信すると、完全なPDFが手に入ります。

AIフロンティアに関するその他の論文:

https://hyper.ai/papers

実際の医薬品開発に近いデータセットの構築

この研究ではまず、115 種類の一般的な反応タイプを含む反応セットを使用し、それを Enamine US 在庫カタログから取得した 212,000 個の購入可能な構成要素と組み合わせて、実際の医薬品開発シナリオに近い実験フレームワークを構築しました。これらを組み合わせると、分子サイズが 10⁶⁰ を超える合成化学空間が定義されます。この実験は、「合成可能な分子の再構築」というタスクに焦点を当てており、特定の分子に対して実行可能な合成経路を生成することで、広い化学空間をカバーするモデルの能力をテストすることを目的としています。

テストセットの設計では、研究チームはさまざまな課題を持つ複数の分子セットを使用しました。エナミンREAL多様性データセットとChEMBLデータベースからランダムに選択された1,000分子からなるベースラインテストセットに加え、医薬品開発における「ビルディングブロックインベントリの更新」という現実世界のシナリオをシミュレートするために、拡張テストセットを構築しました。ZINC250kライブラリから18個未満の重原子を持つ37,000個以上の分子が新しいビルディングブロックとして選択され、この拡張インベントリから1,000個のテスト分子が生成されました。この実験では、既存研究との比較可能性を確保するために、Luoらが提案したChEMBLテストセットも組み込んでいます。

ReaSynフレームワーク:分子表現から推論強化への進歩的な技術ルート

ReaSyn フレームワークは、合成可能な分子の投影における主要な推論のボトルネックを解決することを目的としています。その技術的ルートは、分子表現の革新から推論機能の強化まで、進歩的なロジックに従っています。

下図に示すように、本研究ではまず合成可能な化学空間を明確に定義しました。この空間は、一連の構成要素と一連の反応規則によって決定されます。各反応は、SMARTS言語を用いて反応物から生成物への変換を記述し、合成可能な空間は、反応規則を反復的に適用することで初期の構成要素から得られるすべての生成物の集合を表します。この枠組みにおいて、合成可能な投影の中心的な目標は、与えられた標的分子𝑥に対して、経路の最終生成物𝑥と𝑝の構造類似性が最大化されるように合成経路𝑝を生成することです。


ReaSynの全体的なフレームワーク

分子合成経路の表現については、以下の図に示すように、ReaSyn は革新的な「Chain-of-Reaction (CoR)」表現戦略を提案しました。これにより、従来の「合成木接尾辞表現」の様々な限界が克服されます。従来の手法は自己回帰生成をサポートしていますが、反応規則の暗黙的な学習の必要性、階層的予測の誤差伝播の脆弱性、ビルディングブロックのフィンガープリント表現における一対一性の欠如といった固有の欠陥を抱えています。

反応連鎖表現法は、その汎用性を維持しながら、化学反応レベルでの思考連鎖(CoT)の統合、階層的分類なしでの完全な経路予測の実現、分子指紋への依存の排除という 3 つの重要なブレークスルーを達成しました。

具体的な実装では、合成経路は複数の機能ブロックに分解され、それらはすべて統一された語彙を共有します。分子ブロックは特別なタグを持つSMILES文字列で表現され、反応ブロックは単一のトークンで表現されます。最終的に、スプライシング操作によって完全な経路配列が形成されます。


CoR表記

モデルトレーニングでは、教師あり学習と強化学習の微調整を組み合わせた 2 段階の戦略を採用しています。

教師あり学習フェーズでは、ターゲット分子と合成経路のペアデータを使用して、次のトークンを予測することを目的として Transformer モデルをトレーニングします。また、トークンタイプの加重損失関数を設計することで、異なるタイプのトークンの学習強度のバランスを取りながら、中間製品の助けを借りてより豊富な監視信号を提供します。オンライン強化学習アルゴリズムは、強化学習の微調整段階で使用されます。報酬メカニズムは、モデルがより効果的な経路を探索するように導くために使用されます。その損失関数は、経路報酬の最大化を考慮するだけでなく、モデルの動作の安定性にも焦点を当てており、教師あり学習の探索能力における限界を効果的に補います。

推論段階では、ReaSynは、スタック構造とビームサーチ機構を組み合わせることで、目標指向のテスト時間コンピューティングスケーリングを実現し、さまざまなタスク要件に基づいてスコアリング戦略をカスタマイズします。スタックは反応物と中間体を動的に管理し、段階的な推論プロセスをサポートします。ビームサーチは、高スコアの候補パスを複数維持することで、探索の多様性を維持します。

分子再構成課題では、スコアリング戦略は、構造の類似性と反応の実現可能性に焦点を当て、ターゲット分子の正確な再現を保証します。分子の最適化と活性拡張タスクでは、構成要素と中間体のターゲット特性を評価するための報酬モデルが導入され、理想的な特性を持つ合成可能な分子への探索を導き、合成可能な空間内でターゲットを絞った探索と最適化を実現します。

実験結果: マルチタスク性能はSynNetや他の手法を上回り、アブレーション実験によりコアコンポーネントの有効性が検証されました。

実験結果を次の表に示します。ReaSyn は、複数の主要タスクにおいて、既存の SynNet および SynFormer メソッドよりも優れた総合的なパフォーマンスを発揮します。

ReaSyn、SynNet、SynFormer方式の比較

合成可能な標的分子を最適化するという課題において、この研究は、ReaSyn が従来の最適化手法の実用性をどのように向上できるかに焦点を当てています。このタスクは、グラフ遺伝的アルゴリズム(Graph GA)を基本的なフレームワークとして用い、その育種ステップの後にReaSynを導入して合成可能な射影処理を実行し、得られた分子がすべて合成可能な空間に含まれるようにします。この手法はGraph GA-ReaSynと名付けられています。

実験は 2 つの部分に分かれています。1 つは TDC オラクル関数に基づく一般的なプロパティの最適化であり、もう 1 つは可溶性エポキシド加水分解酵素 (sEH) に対する結合親和性のターゲット最適化です。

TDCミッションでは、下表に示すように、Graph GA-ReaSynは、15の最適化タスクにおける「AUCトップ10」指標において、すべての合成制約ベースのベースライン手法を上回りました。また、合成アクセシビリティスコア(SAスコア)はオリジナルのGraph GAを大幅に上回り、ReaSynが最適化性能を維持しながら合成可能性を効果的に向上させたことを示しています。sEH親和性最適化において、ReaSynは結合親和性、SAスコア、薬物類似性(QED)の点で、FragGFN、SynFlowNet、SyntheMolなどの手法を上回りました。特に、ターゲット特性と合成可能性のバランスをとることの利点が強調されています。

TDCタスクにおける合成可能な標的指向分子の最適化結果

合成活性化合物の範囲を拡大する作業において、ReaSynはビームサーチを用いて、既知の活性化合物の構造的に類似し合成可能な類似体を複数生成し、候補分子ライブラリを拡張します。この実験ではJNK3阻害剤を研究対象とし、ZINC250kデータベースから評価上位10の分子を出発点として選択し、各分子について100個の類似体を生成しました。「アナログ率」「改善率」「成功率」の3つの指標で評価したところ、ReaSynは全ての指標で従来の方法を上回りました。

AIによる合成経路予測は合成可能な分子の設計における革新を促進する

ReaSynなどのAI駆動型合成経路予測技術が開発される一方で、世界中の学界やビジネス界もこの分野を積極的に研究しており、さまざまな経路からの合成可能な分子の設計におけるイノベーションを推進しています。


学術研究は、新しい手法やその根底にあるメカニズムのブレークスルーに焦点を当てることが多い。例えば、トロント大学が開発したデスクトップロボットシステム「オルガナ」コンピューター ビジョンと大規模言語モデル (LLM) を組み合わせることで、自然言語の指示を標準の化学記述言語 χDL コードに変換し、一部の化学実験室のタスクを自動化し、科学者の口頭の指示を実験プロセスに変換することが可能になります。

リバプール大学が独自に開発したAI化学者「モバイルロボティックケミスト」8日間で688件の実験が完了し、1週間で1,000種類の触媒式が研究され、新しい触媒が発見されました。


ビジネスの世界におけるイノベーションは、高度なテクノロジーを実際の生産性に変換し、既存のワークフローに統合することに重点を置いています。人工知能医薬品の研究開発を専門とする英国企業であるBenevolentAIとメルクとの戦略的協力は非常に代表的なものです。前者は、エンドツーエンドAIプラットフォームの化学設計ツールと英国ケンブリッジのウェットラボ施設を活用し、メルクの医薬品研究開発パイプラインに対し、活性化合物の同定から前臨床候補分子の開発まで、フルチェーンのサポートを提供します。その中核となるのは、大規模言語モデルの合成経路推論機能を活用することで、生成される低分子化合物が高活性と合成可能性を両立させ、コンセプトから候補分子への変換サイクルを大幅に短縮することです。


AI主導のバイオテクノロジー企業であるInsilico Medicineは、エンドツーエンドの医薬品開発における合成アクセシビリティ設計の実用的価値を実証しました。生成AIを用いて設計された特発性肺線維症の候補薬INS018_055は、ReaSynのような合成可能な投影モジュールを内蔵しており、前臨床研究でTP3Tの合成に100%の成功率を達成した。さらに、ターゲットの発見から候補分子の決定までにはわずか 18 か月しかかからず、これは業界平均よりも 60% 短くなっています。

学術界と産業界からの多様な探求は、参入点や技術的な経路は異なりますが、すべて1つの目標を指し示しています。それは、革新的な方法を通じて有用な分子を設計および合成する能力と効率を向上させ、最終的には医薬品の研究開発や新素材の開発など、多くの分野に新たな推進力を注入することです。

参考リンク:
1.https://mp.weixin.qq.com/s/Mz64afMOOI_7m-Nqg_m5oQ
2.https://mp.weixin.qq.com/s/1Juv9z1-mUOR6Sip4KwvgQ
3.https://mp.weixin.qq.com/s/vhhb2OUtCRpbPLg8j4YsYQ