AlphaFolding はタンパク質の動的構造予測のギャップを埋めます!復旦大学らが4D拡散モデルを提案し、その結果がAAAI2025に選定された

タンパク質の機能は、その 3D 構造に大きく依存します。 19 世紀半ば、科学界では一般に、タンパク質の構造は「鍵と鍵穴のモデル」と同様に固定され、堅固であると信じられていました。つまり、タンパク質とリガンドの結合は、固定された三次元構造によって決定されます。しかし、ダニエル・コシュランドが、酵素は基質に結合すると構造が変化するという考えを提唱して以来、従来の考え方に疑問が投げかけられ始めました。
1980 年代に分子動力学シミュレーション (MD) が登場しました。タンパク質の移動軌跡が計算の観点から初めて明らかにされました。それ以来、タンパク質の動的構造の機能的役割はますます注目を集めるようになりました。バイオテクノロジーの研究者や科学者にとって、タンパク質の「動き」の動的特性を理解することは、生命のプロセスを理解し、新薬を開発する上で非常に重要です。
たとえば、G タンパク質共役受容体 (GPCR) は多くの薬剤の主なターゲットであり、現在 FDA に承認されている薬剤の 30% 以上を占めています。しかし、GPCR は剛性構造ではなく、非常に動的であり、異なる立体配座状態が薬物結合モードに影響を及ぼす可能性があります。薬剤が静的な結晶構造のみに基づいて設計されると、重要な結合部位が見逃され、薬剤の親和性と選択性が不十分になる可能性があります。動的構造予測は、生理学的環境における GPCR の複数の立体配座を識別するのに役立ちます。これにより、低分子医薬品の設計が最適化され、標的治療の成功率が向上します。
この文脈において、復旦大学と上海科学情報研究所の朱思宇教授と斉元教授のチームは、南京大学の姚姚教授とともに、革新的な 4D 拡散モデル AlphaFolding が提案されています。分子動力学シミュレーションデータを組み込んで、動的なタンパク質構造を学習します。これは、複数の時間ステップにわたってタンパク質の軌跡を同時に予測できる、拡散モデルに基づく初の方法です。
ベンチマーク データセットでの検証結果によると、新しいモデルは、最大 256 個のアミノ酸を含み、32 のタイム ステップにわたる動的な 3D 構造を高い精度で予測し、安定状態における局所的な柔軟性や大幅な構造変化を効果的に捉えることができます。
「参照と動作ガイダンスによる動的タンパク質構造予測のための4D拡散」と題された関連結果は、トップ国際会議AAAI 2025に選ばれ、プレプリントがarXivで公開されました。

用紙のアドレス:
https://arxiv.org/abs/2408.12419
公式アカウントをフォローし、「4D拡散性タンパク質」と返信すると、完全なPDFが手に入ります。
オープンソース プロジェクト「awesome-ai4s」は、200 を超える AI4S 論文の解釈をまとめ、膨大なデータ セットとツールを提供します。
https://github.com/hyperai/awesome-ai4s
タンパク質の動的構造予測の研究にはまだギャップがある
AlphaFolding モデルは、構造生物学研究における重要な進歩と見ることができます。構造生物学は、タンパク質などの生体高分子の構造、運動、相互作用の研究に基づいて生命現象を解明する学問であり、現在では分子生物学の主流となっています。
近年、ディープラーニング技術の進歩と、タンパク質データバンク (PDB) の実験的タンパク質構造データの急激な増加が相まって、タンパク質構造予測の分野で数々の重要な進歩がもたらされました。その中でも最もよく知られているのがAlphaFold2です。最新の人工知能アルゴリズムを使用して、実験精度に近いタンパク質構造の正確な予測を実現します。関連する結果は、サイエンス誌によって2020年のトップ10の科学的ブレークスルーの1つとして評価されました。
偶然にも、2021年7月、ワシントン大学の生物学者デビッド・ベイカー氏のチームが開発したRoseTTAFoldが、「3トラック」ニューラルネットワークを構築した。特定の配列を持つタンパク質の三次元構造は、12 分以内に解明できます。
さらに、大規模なデータリポジトリが利用可能になったことで、タンパク質立体配座のサンプリング研究の発展が促進されました。たとえば、Microsoft Research は Distributional Graphformer (DiG) と呼ばれるディープラーニング フレームワークを開発しました。平衡状態における分子構造の分布を予測することを目的としています。従来の分子動力学シミュレーションと強化サンプリング法では分子の平衡分布を得ることができますが、これらの方法は計算コストが高く、時間がかかるため、複雑な実際のアプリケーションシナリオに適用することは困難です。一方、DiG はディープラーニング技術を使用して、現実的で多様なコンフォメーションを迅速に生成します。
タンパク質の構造とその立体配座の予測においては大きな進歩が遂げられていますが、動的構造の研究は依然として比較的遅れています。タンパク質の3次元構造を正確に予測できるAlphaFold2を例に挙げてみましょう。しかし、この手法では、ある瞬間のタンパク質の静的な構造しか予測できず、動的な変化を予測することはまだできません。
2024年5月、DeepMindはアップグレード版のAlphaFold3をリリースしました。これは、タンパク質、核酸、小分子の3D構造を含む、あらゆる生体分子の構造と相互作用を前例のない「原子精度」で予測し、それらがどのように組み合わされているかを明らかにすることができます。しかし、生物学的分子の動的な 3D 構造の予測には依然として大きな限界があります。
したがって、本研究で新たに提案された革新的な 4D 拡散モデルは、実際にはこの研究のギャップを埋めることを目的としており、タンパク質構造の動的特性に焦点を当て、タンパク質機能のより深い理解のための新しいアイデアを提供します。研究者らは、高品質の分子動力学シミュレーション(MD)データを最大限に活用しました。数百のアミノ酸からなる複雑なタンパク質の完全な側鎖表現を備えた動的なタンパク質構造を生成します。これにより、MD シミュレーションの適用範囲が拡大し、より大規模で複雑なタンパク質システムの動的挙動を予測できるようになり、タンパク質の動的特性に関する理解が深まります。
複数の時間ステップにわたるタンパク質の運動軌跡を高い精度で予測できることを実証
静的タンパク質モデルの構築は比較的簡単ですが、動的タンパク質モデルはどのように表現すればよいのでしょうか?この問題を解決するには、研究者らは、AlphaFold2 のフレームベースのタンパク質構造表現方法を使用し、それを時間次元に拡張しました。時間の経過に伴う構造の変化を説明します。
静的タンパク質モデリングでは、タンパク質は一連のアミノ酸残基で構成され、各アミノ酸残基はバックボーン フレームワークによってパラメーター化されます。この研究では、研究者らは動的タンパク質を、N 個のアミノ酸残基を含み、そのバックボーンフレームワークが S 時間ステップ内で変化するシステムとして定義しました。これらのフレームは、ローカル フレームの方向をグローバル参照フレームに対して保持するために、特殊ユークリッド変換を使用して変換されます。
タンパク質内のすべての追加の原子座標は、化学構造の完全性を確保するために、二面角への依存性に基づいて厳密なグループに編成されます。各剛体グループ内では、すべての原子の相対的な位置と方向は変化しません。変換パラメータと組み合わせることで、モデルは時間次元における理想化された実験座標からすべての原子の位置を再構築できます。
これを基に、研究モデル全体を構築する方法を下図に示します。拡散モデルは、参照構造と対応する残基配列(アミノ酸残基配列)を入力として受け取り、一連のノイズ除去された 3D タンパク質構造(ノイズ除去された 3D 構造)を出力として生成します。

研究者らは、3D 構造埋め込みツールと GeoFormer を使用して、それぞれ 3D タンパク質構造と残基配列を埋め込みました。不変点注意 (IPA) は、残基の明示的なフレームワーク情報を組み込むことによってノード機能を更新します。
リファレンス ネットワークおよびモーション アライメント モジュールは、リファレンス 3D タンパク質構造に基づいて 3D タンパク質動的シーケンスをキャプチャします。生成モデル全体はスコアベースの拡散モデルとして構築され、ノードとエッジの特徴埋め込みはそれぞれ EdgeUpdate モジュールと BackboneUpdate モジュールを通じて更新されます。
モデルを構築した後、研究者らは、ATLAS や Fast-Folding Proteins などのデータセットを使用して、現在の短期から長期 (S2L) タスクで DFF および Flow-Matching を使用した提案フレームワークの比較実験を実施しました。
結果は次の表に示すとおりである。ATLASデータセットのS2Lタスクでは、提案手法によりR32 誤差は4.60から2.12に減少しました。長期予測の精度が大幅に向上しました。高速折り畳みデータセットのS2Lタスクでは、提案手法はR32 誤差は5.48から4.39に減少しました。また、長期的な予測能力も優れています。同時に、O2O タスクにおける提案モデルのパフォーマンスは、S2L タスクにおけるパフォーマンスと同等です。これは、その優れた一般化能力を示しています。


さらに、この方法は、各軌道ステップでより大きな動的変化を持つ、より長いシミュレーション時間を持つタンパク質を扱うことができます。実験結果により、この方法がタンパク質動態のモデリングに有効であることがさらに検証されました。
さらに一歩進んで、研究者らはモデルによって生成された最初の 2 つの TIC (時間的一貫性コンポーネント) の動的タンパク質分布も視覚化し、実際のデータと比較しました。下の図に示すように、新しいモデルはタンパク質の動的挙動を効果的に予測し、実際の分布と非常によく一致しています。

* 点が暗いほど、頻度が高くなります。青い曲線は、MD データから推定されたカーネル密度分布を表します。
下の図は、選択した時間ステップでの逆拡散プロセスを示しており、ノイズ除去プロセス中にタンパク質構造が徐々に一貫性を増していく様子が強調されています。ご覧のように、提案された方法は、タンパク質のダイナミクスを効果的に捉え、合理的な軌道を生成します。

* ピンクと黄色の領域はそれぞれαヘリックスとβシートを示しています
タンパク質構造の動的特性はより注目されるようになる
タンパク質は細胞環境において静的に存在するのではなく、複雑に動的に変化しています。従来の静的構造予測法は、タンパク質の折り畳みと相互作用を明らかにする上で重要な進歩を遂げてきましたが、タンパク質の動的挙動を完全に捉えることはできません。したがって、動的タンパク質構造予測は、構造生物学および計算生物学における最先端の課題の 1 つとなっています。近年、ますます多くの研究者がこの分野に専念するようになりました。
2022年12月、西湖大学の李自清氏のチームは、厦門大学および徳瑞医薬と協力しました。私たちは、タンパク質の構造変化を特徴づけ、親和性を予測できる AI モデル ProtMD を開発しました。これは、タンパク質の動的構造解析を試みた初のAI手法です。薬物分子と標的タンパク質を与えると、ProtMDは薬物分子が体内で標的タンパク質に結合した後のタンパク質構造の変化を予測し、薬物と標的タンパク質の結合の安定性を推測し、薬物の機能を予測します。これにより、AI薬物設計の精度と効率が向上し、前臨床薬物開発が加速されます。
関連する研究結果は、「薬物結合のためのコンフォメーション柔軟性を備えた等変グラフマッチングネットワークの事前トレーニング」というタイトルでAdvanced Scienceに掲載されました。
* 紙のアドレス:
https://advanced.onlinelibrary.wiley.com/doi/full/10.1002/advs.202203796
2024年8月、コネチカット大学の新たな研究により、タンパク質の動的特性や結晶化傾向を正確に予測することができ、関連する研究結果は、「タンパク質のダイナミクスがタンパク質の構造を決定:タンパク質の結晶化傾向に関する学際的調査」というタイトルで材料科学ジャーナル「Matter」に掲載されました。この研究は、タンパク質の自然な動きや変動、つまりその揺れる性質が、その機能特性、特にタンパク質が高品質の結晶を形成する能力にどのように影響するかに焦点を当てています。
2024年10月、上海交通大学の鄭双佳氏が率いる研究グループは、スターファーマテクノロジー、中山大学薬学部、ライス大学と共同で、タンパク質の動的ドッキング用に設計された幾何学的深層生成モデル DynamicBind が提案されています。これは、タンパク質の立体構造を初期の AlphaFold 予測状態からホロ様の状態に効果的に調整することができ、深層学習に基づく新しい研究パラダイムを提供し、AlphaFold 後の時代の創薬のためのタンパク質の動的変化を考慮します。
関連研究は、「DynamicBind: 深層等変生成モデルによるリガンド特異的タンパク質-リガンド複合体構造の予測」というタイトルで Nature Communications に掲載されました。
※詳細レポートはこちらをクリック:タンパク質の動的ドッキング予測を実現!上海交通大学/星耀科技/中山大学などが共同で幾何学深層生成モデルDynamicBindを発表
要約すると、動的タンパク質構造予測は、生命プロセスを理解するのに役立つだけでなく、医薬品開発、疾患メカニズムの研究、産業バイオテクノロジーにおいても重要な役割を果たすことができます。 GPCR 薬物設計、タンパク質間相互作用から酵素触媒、タンパク質凝集病理学研究に至るまで、動的構造予測は生命科学の最先端の発展を促進し続けます。
参考文献:
1.https://www.forwardpathway.com/119037
2.https://www.westlake.edu.cn/news_events/westlakenews/academics/202212/t20221208_24193.shtml
3.https://www.cell.com/matter/abstract/S2590-2385(24)00196-6
