Command Palette
Search for a command to run...
MITは、配列と振動の双方向マッピングを実現する、初のエンドツーエンドの動的タンパク質生成モデルであるVibeGenを提案した。

タンパク質は生体システムにおける中心的な機能分子ですが、その機能は静的な構造だけで決まるのではなく、絶えず変化する立体構造のダイナミクスに由来します。複雑なエネルギーランドスケープの中で、タンパク質はフェムト秒からミリ秒に及ぶマルチスケールの動きを通して生理的条件下で動的平衡を維持しており、まさに分子機械と言えるでしょう。
これが、異常なタンパク質動態が様々な疾患と密接に関連している理由です。例えば、腫瘍抑制タンパク質p53は構造的可塑性に依存した機能を発揮し、発がん性変異はこの機能を弱めます。一方、CFTR変異はゲーティング動態を阻害することで嚢胞性線維症を引き起こします。これらの事実から、…タンパク質の「動き」そのものが、その機能を決定する重要な要素である。したがって、動的な観点からタンパク質を理解し設計することは、構造生物学および生物工学における最先端の方向性になりつつある。
過去数十年にわたり、研究者たちは核磁気共鳴(NMR)、水素-重水素交換質量分析法(HDEMS)、クライオ電子顕微鏡法(クライオEM)などの実験技術に加え、分子動力学シミュレーションや振動基準モード(VMS)解析などの計算手法を開発し、タンパク質の動態を解析してきた。しかし、これらの手法は複雑すぎてスケールアップが困難であったり、計算コストが高く時間もかかるため、大規模な研究には適していない。
近年、深層学習と生成AIはタンパク質研究に新たな可能性をもたらしました。AlphaFold2などのモデルは高精度の構造予測を実現し、二次構造、結合部位、さらには振動特性も予測できるようになりました。しかし、既存のほとんどの手法は依然として「構造または単一の特性」のレベルにとどまっており、本質的な動態を体系的にモデル化できていない。設計分野において、RFdiffusionやAlphaFold3といったフレームワークは、構造を近似的な剛体として扱っており、動的な制約を真に導入するには至っていない。そのため、「シーケンス-構造-ダイナミクス-機能」の統一的なマッピングを確立し、ダイナミクスに基づいた制御可能な設計を実現することは、依然として重要な課題となっている。
最近、マサチューセッツ工科大学(MIT)とカーネギーメロン大学の共同研究チームは、タンパク質を生成するインテリジェントエージェントであるVibeGenを提案した。配列生成と振動ダイナミクス予測を組み合わせることで、新規タンパク質設計が実現した。その結果、この生成エージェントによって設計されたタンパク質は、安定かつ新規な構造に折り畳まれるだけでなく、主鎖レベルでの標的振動振幅の分布特性を再現できることが示された。
関連する研究成果は、「VibeGen:言語拡散モデルを用いた、カスタマイズされたダイナミクスを実現するエージェント型エンドツーエンドのde novoタンパク質設計」と題され、Matter誌に掲載された。

用紙のアドレス:
https://www.cell.com/matter/abstract/S2590-2385(26)00069-X
低周波基準振動モードに基づくタンパク質ダイナミクスデータベース
データベースを構築するには、研究者らは、2024年1月に更新されたタンパク質データベース(PDB)から、アミノ酸の長さが126個以下の単鎖タンパク質をスクリーニングした。VMD、MMTSB、SCWRL4などのツールを使用して構造のクリーニングと完成を行った。次に、CHARMM力場に基づいてエネルギー最小化を行い、ブロック法線振動モード法を用いてモード情報を計算した。全体の並進と回転を表す最初の6つの剛体モードを除去した後、最も低い周波数の非自明モードを選択して後続の解析に用いた。
この研究は、これを基に、主鎖の各残基におけるCα原子の変位モードをさらに抽出し、正規振動モード形状ベクトルを構築した。その結果、振動変位の分布は明らかに不均一であることが示された。すなわち、鎖末端や構造が緩い領域では振幅が大きく、αヘリックスやβシートなどの密な領域では振動が制限されていた。旋回領域やコイル状領域は、柔軟性が高いため局所的なピークを示した。長さの違いの影響を排除するため、ベクトルを正規化し、座標に依存しない動的記述子とした。
ファイナル、研究者らは、12,924本のタンパク質一本鎖を含むデータセットを構築した。分析の結果、低周波振動モードは非常に多様であり、ピーク振幅は鎖の両端に集中していることがわかった。データセットは、生成モデルのその後の学習と評価のために、9:1の比率で学習セットとテストセットに分割された。

VibeGen:言語拡散モデルに基づくエンドツーエンドの新規タンパク質設計
本研究の核心的な課題は、通常の振動モードの形状がタンパク質の複雑な三次元構造と弾性特性によって決定され、配列とダイナミクスの間に直接的な対応関係が存在しないことである。同時に、単一モードの情報は高度に縮退しており、異なる配列が類似した動的特性に対応する可能性があるため、逆設計問題が特に困難となる。
これらの課題に対処するため、本研究ではまず、通常の振動モード解析と全原子分子動力学シミュレーションによって、タンパク質データベース(PDB)から多数のタンパク質の主要な動的特徴を抽出した。これに基づいて、研究者らは、タンパク質設計モジュール(PD)と予測モジュール(PP)という2つの協調的なタンパク質言語拡散モデルを構築した。これらはそれぞれ、配列と通常の振動モード空間間の順方向予測と逆方向設計を担当します。2つのモジュールは、事前学習済みのタンパク質言語モデル(pLM)と拡散モデルの組み合わせに基づいており、構造は類似しています。
設計モジュールの役割は、目標とする動的特性に基づいてシーケンスを生成することである。ノイズ除去処理において、拡散モデルは複数のチャネルを通して動的な状態情報を取り込み、潜在空間における目標特性に適合するシーケンスを徐々に生成する。予測モジュールは対称的な構造を持ち、入力シーケンスから通常の振動モードの形状を推論します。また、事前学習済みの言語モデルが出力する複数のシーケンス表現を利用して、予測結果を最適化します。
これら2つのモジュールはそれぞれ独立して訓練され、展開段階では「生成-評価-選別」という閉ループ型の協調システムを形成する。設計モジュールはまず候補となるシーケンスを生成し、予測モジュールはそれらの動的性能をリアルタイムで評価する。研究者は、精度や多様性といったニーズに基づいて結果を絞り込み、満足のいく結果が得られるまで必要に応じて反復処理を繰り返すことができる。

モデルの性能はテストセットで検証された。L字型、U字型、W字型など、様々な典型的な正規振動モード形状について、モデルによって生成されたタンパク質は実際の正規振動モード解析によって検証され、その振動形状は設計目標と非常によく一致した。ピアソン相関係数や相対L2誤差などの定量的指標は、…この手法は、複雑な動的制約下においても高精度な設計を実現できる。
構造的な観点から見ると、タンパク質の形成は明確な運動学的対応関係を示している。すなわち、振動が強い領域はランダムコイルや柔軟な断片になりやすく、振動が制限されている領域はαヘリックスやβシートなどの安定した構造を形成しやすい。これは、このモデルが構造とダイナミクスの間の本質的な関係を効果的に捉えていることを示している。
モデル実装レベルでは、設計モジュールと予測モジュールの両方で、計算効率とモデル性能のバランスを取るため、ESM-2シリーズの1億5000万個のパラメータを持つ中規模の事前学習済みモデルをpLMとして使用しています。拡散モデルは、U字型ネットワークの複数のチャネルを通して条件付き情報をノイズ除去プロセスに統合し、Adamオプティマイザを使用して独立して学習されます。
精度と斬新さの両面における画期的な進歩
モデルの性能を評価するため、本研究では複数の次元にわたる実験的分析を実施した。多様性分析の結果、…同じ動的目標に対して、このモデルは構造は異なるが機能は同じ複数の設計案を生成することができる。U字型およびL字型の基準振動モードを例にとると、設計されたタンパク質はすべて「密なコア+開いた端」構造を示します。端はランダムコイル構造で、高振幅領域に対応します。コアは、αヘリックス束やヘリックスフォールドハイブリッド構造など、さまざまな方法で実現でき、低振幅領域に対応します。この多様性は主に低振動領域における構造選択の自由度に由来し、このモデルはこの「複数の解」をうまく捉え、活用しています。

予測モジュールの有効性は比較実験によって検証された。下図に示すように、同じ候補配列セットから最良の予測グループと最悪の予測グループを選択した場合、前者の実際の設計精度は後者よりも有意に高かった(ピアソン相関係数の中央値は0.53対0.31)。一方、予測モジュールは両グループで安定した予測精度を維持した。これは、…設計プロセス中に予測モジュールを導入することで、高品質な配列を効果的に選別し、高価な物理的検証への依存度を低減できる。

全体的な性能統計は、1,293件のテストケースに基づいています。下図に示すように、測定された正規モード形状と設計目標との相関係数の中央値は0.53、相対L2誤差の中央値は0.57であり、残差レベルでの高精度設計の固有の難しさを反映しています。全体的な形状を維持するためにローパスフィルタリングを行った後、相関係数の中央値は0.72に増加し、誤差の中央値は0.37に減少します。これは、このモデルが振動の全体的なプロファイルを捉える上で特に優れた性能を発揮することを示している。この特徴は、タンパク質の大規模な立体構造変化において、最も重要な生物学的意義を持つ。
新規性という観点から見ると、BLASTの最高配列相同性は二峰性分布を示し、主ピークは新規設計された配列に対応する。これは、このモデルが新規配列を生成する可能性が高く、タンパク質の構造と動態に関する解の潜在的なライブラリを効果的に拡大することを示している。

構造とダイナミクスの相関関係は、複数の実験で一貫して示されている。αヘリックスやβフォールドなどの高密度構造は主に低振幅領域に分布し、高振幅領域は主にループ領域または末端カールである。このモデルは、この物理法則をうまく捉え、二次構造要素の助けを借りて局所的な柔軟性を制御することができ、構造と動特性の関係を理解していることを示した。
全体として、このモデルは、運動学的制約下でのタンパク質設計において、精度、多様性、新規性のバランスを良好に実現しており、その後のより複雑な機能設計の基礎を築いている。
インテリジェントエージェントタンパク質生成と通常振動モード逆設計の組み合わせ
通常の振動モード形状に基づいたインテリジェントエージェントタンパク質の生成と逆設計に関する研究は、タンパク質工学分野における最先端のホットトピックになりつつあり、学術的な探求と産業的なイノベーションの両方を推進している。
学術界では、多くの大学チームがこの分野を継続的に研究し、一連の画期的な成果を上げてきました。一部のチームは、インテリジェントエージェントの協調フレームワークを最適化し、通常振動モード解析とより高度なタンパク質言語拡散モデルを組み合わせることで、逆設計における縮退問題を効果的に軽減できる。この研究は、通常の振動モードの形状とタンパク質の二次構造および動的特性との間の本質的な関係をさらに検証し、特定の機能を持つタンパク質のde novo設計のための、より確固たる理論的根拠と技術的道筋を提供するものである。
別のチームは、軽量化と汎化に重点を置き、事前学習済みのタンパク質言語モデルのパラメータサイズと学習戦略を最適化し、汎化しやすい小型モデルの開発に取り組んだ。さらに、基準振動モードの逆設計の応用は、酵素触媒部位の設計やタンパク質結合剤の最適化といった特定の分野にも拡大されている。これは、その後の産業変革のための強固な基盤を築いた。
さらに、Google DeepMindはAlphaProteoをリリースしました。高強度タンパク質接着剤を設計するための初の人工知能ツールとして、様々な標的タンパク質に対応する新しいタンパク質複合体を生成することができる。がんや糖尿病の合併症に関連する血管内皮増殖因子Aを含め、この試験はより高い実験成功率を達成した。その結合親和性は既存の最良の方法の3~300倍であり、抗がん剤や抗ウイルス剤の開発を加速させるとともに、バイオセンサーの開発や作物の害虫抵抗性の向上にも新たなアイデアを提供するものと期待される。
他の企業は、医薬品開発における課題点に焦点を当て、通常の振動モード形状逆設計技術を用いて特定の疾患標的向けのタンパク質医薬品を設計することで、開発サイクルを短縮し、コストを削減し、タンパク質医薬品の開発をより正確かつ効率的な方向へと促進している。
現在、学術界による設計精度とモデル汎化能力の継続的な最適化と、産業界による実装効率と応用シナリオの拡大に向けた継続的な取り組みが相まって、タンパク質設計技術はより高い精度、効率、多様性へと進化を遂げています。今後、技術の成熟に伴い、インテリジェントエージェントと標準振動モード解析に基づくタンパク質設計手法は、医薬品、工業生産、バイオ製造などの分野でより幅広い応用を実現し、新たなブレークスルーをもたらすことが期待されます。








