生命の重要な分子であるタンパク質の配列はその構造を決定し、その構造はその機能を決定します。タンパク質の機能はその三次元構造と密接に関係しています。何十年もの間、科学者たちはX線結晶構造解析、核磁気共鳴、その他の技術を使用して何千ものタンパク質の構造を分析し、タンパク質の機能を人々が理解する上で重要な手がかりを提供してきました。しかし、タンパク質の数は数百万にも及ぶため、すべてのタンパク質の構造を解析する作業は非常に困難です。
自然言語処理の分野で事前トレーニングされた言語モデルに触発されて、事前トレーニングされたタンパク質言語モデル (PLM) が登場しました。PLM は、大量の未標識タンパク質配列データを学習することで、タンパク質配列の複雑なパターンと相互作用を捕捉することができ、タンパク質の機能予測、構造解析、タンパク質間相互作用の同定に革命的な進歩をもたらしました。
しかし、ほとんどの PLM は主にタンパク質配列モデリングに焦点を当てており、主に構造データの欠如により構造情報の重要性を無視しています。 AlphaFold や RoseTTAFold などのテクノロジーの出現により、タンパク質の構造予測の精度が大幅に向上し、研究者はタンパク質の構造情報を PLM に効果的に統合して、大規模な構造認識の事前トレーニング済み言語モデルをトレーニングする方法の探索も始めています。 。
例えば、上海交通大学自然科学研究所/物理天文学部/張江高等研究所/薬学部のHong Liang教授、上海交通大学助研究員のZhou Bingxin氏らの研究グループ。上海人工知能研究所の若手研究者である Tan Pan 氏は、最近、構造認識機能を備えた事前トレーニング済みタンパク質言語モデル ProSST の開発に成功しました。
具体的には、モデルは 1,880 万個のタンパク質構造を含む大規模なデータセットで事前トレーニングされ、タンパク質構造を構造化されたトークン配列に変換し、アミノ酸配列とともに Transformer モデルに入力します。 ProSST は、解きほぐされたアテンション メカニズムを採用することで、これら 2 種類の情報を効果的に融合することができ、熱安定性予測、金属イオン結合予測、タンパク質局在予測、GO アノテーション モデルなどの教師あり学習タスクにおける既存の手法を大幅に上回ります。
この研究は「ProSST: 量子化された構造と解き放たれた注意によるタンパク質言語モデリング」と題され、NeurIPS 2024 に選ばれました。
研究のハイライト:
* この研究は、タンパク質の構造を一連の離散的な構造要素に変換することで、タンパク質内の残基の局所的な構造情報を効果的に特徴付けることができるタンパク質構造定量化ツールを提案します。
※本研究は、タンパク質のアミノ酸配列と三次元構造の関係を学習する分離型注意機構を提案し、構造離散化配列とアミノ酸配列の効率的な情報統合を促進します。
* ESM シリーズや SaProt などの他の大型タンパク質事前トレーニング モデルと比較すると、ProSST のパラメータ量はわずか 110M で、古典的な ESM シリーズの 650M よりもはるかに小さいですが、ProSST はほぼ常に最高のパフォーマンスを示します。 ProSST モデル アーキテクチャ設計の利点を反映した、さまざまなタンパク質の下流タスク
* 現在最大のゼロショット変異効果予測である ProteinGym ベンチマークでは、ProSST が 1 位にランクされ、最新の ProteinGym では、0.5 を超えるゼロショット変異パフォーマンス予測のスピアマン相関を達成した最初のオープンソース モデルです。
用紙のアドレス:
https://neurips.cc/virtual/2024/poster/96656
公式アカウントをフォローし、バックグラウンドで「ProSST」に返信すると全文PDFが入手できます
オープンソース プロジェクト「awesome-ai4s」は、100 を超える AI4S 論文の解釈をまとめ、大規模なデータ セットとツールを提供します。
https://github.com/hyperai/awesome-ai4s
ProSST の教師なし事前トレーニングを実現するために、研究チームは主に次のデータセットを使用しました。
* AlphaFoldDB データセット:90% の縮小バージョンは、2 億 1,400 万を超えるタンパク質構造、合計 1,880 万の構造から選択され、そのうち 100,000 の構造がトレーニング段階での混乱を監視および調整するための検証セットとしてランダムに選択されました。
* CATH43-S40 データセット:40% 配列の類似性によって重複が除去された 31,885 個のタンパク質結晶構造が含まれており、重要な原子 (Cα や N など) が欠落している構造を削除した後、31,270 個のレコードが残り、その中から 200 個の構造がモニタリングおよびモデルのパフォーマンスの最適化のための検証セットとしてランダムに選択されます。 。
* CATH43-S40 ローカル構造データ セット:CATH43-S40 データセットから抽出された局所構造から構成される 4,735,677 個の局所構造は、スター グラフ手法を構築することによって抽出され、構造エンコーダの埋め込み表現と構造コードブックのクラスター分析に使用されました。
* ProteinGYM ベンチマーク データセット:ゼロショット突然変異効果を予測する ProSST の能力を評価するために使用されます。これには、スピアマン係数、トップリコール、パフォーマンス評価指標としての NDCG。
この研究で開発された ProSST (Protein Sequence-Structure Transformer) は、構造認識機能を備えた事前トレーニング済みのタンパク質言語モデルです。以下の図に示すように、ProSST は主に 2 つのモジュールで構成されます。シーケンス構造のもつれを解くことに注意を払った構造量子化モジュールと Transformer モデル。
構造定量化モジュール: タンパク質構造を一連の構造要素にシリアル化し、定量化します。
構造定量化モジュールの目標は、タンパク質内の残基の局所構造を個別のラベルに変換することです。最初に、ローカル構造は、事前トレーニングされた構造エンコーダーによって密ベクトルにエンコードされます。その後、事前トレーニングされた k-means クラスタリング モデルが、エンコード ベクトルに基づいてローカル構造にカテゴリ ラベルを割り当てます。最後に、クラス ラベルが構造トークンとして残基に割り当てられます。
※タンパク質の全体構造に比べ、局所構造をより細かい粒度で記述します
具体的には、この研究では、以下の図 A に示すように、幾何学的ベクトル パーセプトロン (GVP) を局所構造エンコーダー (局所構造エンコーダー) として使用し、GVP と位置認識多層パーセプトロン (MLP) を含むデコーダーを組み合わせています。 ) を統合してオートエンコーダー モデルを形成します。モデル全体はノイズ除去済みの事前トレーニング済み標的タンパク質を使用してトレーニングされ、CATH データセットでトレーニングした後、研究者は構造の最終表現としてエンコーダーのプールされた平均出力のみを使用しました。
次に、以下の図 B に示すように、この研究の構造エンコーダー (ローカル構造エンコーダー) は、タンパク質の構造を特徴付ける密なベクトルを個別のラベルに定量化します。この目的を達成するために、研究者らは、構造エンコーダー GVP を使用して、CATH データセット内のすべての残基の局所構造 (局所構造) を連続潜在空間に埋め込み、k 平均法アルゴリズムを適用してこの潜在空間内の K を特定しました。重心、これらの重心は構造コードブックを構成します。
最後に、タンパク質配列の位置 i にある残基について、研究ではまずその局所構造に基づいてグラフ Gi を構築し、次に構造エンコーダー GVP を使用してそれを連続ベクトル ri に埋め込みます。全体として、以下の図 C に示すように、タンパク質構造全体をシリアル化し、一連の構造トークンに量子化できます。
配列と構造の分離への注意: モデルが残基と残基、残基と構造の間の関係を学習できるようにします。
この研究は、DeBerta モデルに触発され、デカップリング アテンションを通じて残基配列 (アミノ酸配列) と構造配列の関係、および相対的な位置を学習し、モデルがタンパク質の配列と構造の情報を処理できるようにすることを目的としました。デカップリングを通じてモデルのパフォーマンスと安定性を向上させます。
具体的には、タンパク質一次配列の i 番目の残基は次の 3 つの項目で表すことができます。 Ri はアミノ酸配列トークンのコードを表し、S私 はアミノ酸のローカル構造トークンエンコードを表し、Pi|j 位置 j の i 番目の残基のトークン コードを表します。下図に示すように、本研究の配列-構造デカップリング注目メカニズムには、残基ペア残基(R to R)、残基ペア構造(R to S)、残基ペア位置(R to P)、構造ペアの5種類が含まれます。残基の位置 (S から R) と残基の位置 (P から R) を使用すると、モデルでタンパク質の配列と構造の間の複雑な関係をより詳細に捉えることができます。
ゼロショット変異体の効果的な予測における ProSST の有効性を検証するために、この研究では、ProSST を、配列ベースのモデル、構造-配列モデル (配列モデル)、逆折り畳みモデル、進化モデルなどを含むさまざまな上位モデルと比較しました。アンサンブルモデル。
以下の表に示すように、 ProteinGYM ベンチマークでは、ProSST がすべての比較モデルを上回り、最高の安定性を達成しました。さらに、ProSST (-structural) は他のシーケンス モデルと同等のパフォーマンスを示し、ProSST のパフォーマンス向上が主に構造情報の効果的な統合に起因していることが確認されました。
※ ProSST (-struction) には構造情報モジュールは含まれません
教師あり学習について、研究では、熱安定性予測 (Thermostability)、金属イオン結合予測 (Metal Ion Binding)、タンパク質局在予測 (DeepLoc)、GO アノテーション予測 (MF/BP/CC)、ProSST の比較という 4 つの主要なタンパク質の下流タスクを選択しました。 ESM-2、ESM-1b、SaProt、MIF-ST、GearNet などの他のタンパク質言語モデルを使用します。結果を以下の表 2 に示します。ProSSTは全6セッティング中1位5回、2位1回を記録し、全モデル中最高の成績を収めた。
ChatGPT などの大規模言語モデルのリリース以来、大規模なタンパク質配列に基づく事前トレーニング済みモデル (PLM) は、生命科学の分野で人気のある研究となっています。現在、PLM 研究は主に 2 つの方向に分かれています。
* 検索強化 PLM: このタイプのモデルは、トレーニングまたは予測段階で MSATransformer や Tranception などの複数の配列アライメント (MSA) 情報を統合し、予測パフォーマンスを向上させます。
* マルチモーダル PLM: 配列情報のみを使用するモデルとは異なり、マルチモーダル PLM はタンパク質構造などの追加情報を統合します。たとえば、この記事で説明されている ProSST モデルは、構造トークン配列とアミノ配列の融合を通じてモデルの表現を強化できます。酸配列能力。
強化された PLM の取得に関しては、今年4月、復旦大学などの研究チームは、配列入力に基づく相同タンパク質検索手法「PLMSearch」を開始した。この研究では、事前トレーニングされたタンパク質言語モデルを使用して、深い表現を取得し、構造の類似性を予測できます。関連する研究は Nature Communication に掲載されています。
論文リンク:
https://doi.org/10.1038/s41467-024-46808-5
マルチモーダル PLM に関しては、浙江大学のChen Huajun教授のチームは最近、タンパク質最適化のための新しいノイズ除去タンパク質言語モデル(DePLM)を提案し、このモデルは進化情報を最適化することでタンパク質最適化タスクのパフォーマンスを向上させることができ、関連する結果がトップカンファレンスに選ばれました。ニュールIPS24。
詳細: NeurIPS 24 に選ばれました!浙江大学チームは、SOTA モデルよりもよく突然変異の影響を予測する、新しいノイズ除去タンパク質言語モデル DePLM を提案しました
これらの画期的な研究が次々と登場するにつれ、PLM は生命科学の未知の領域を探索するための強力なツールとなりつつあり、タンパク質の機能予測、相互作用予測、表現型関連予測などの分野で大きな可能性を秘めており、病気や病気の治療に期待されています。人間の生活を改善する、新しいアイデアを提供する。