DeepMind は教師なし学習を使用して、7,100 万の遺伝子変異を予測する AlphaMissense を開発

特色图像

ヒトゲノムには合計 31 億 6,000 万の塩基対があり、常に複製、転写、翻訳が行われており、エラー突然変異のリスクが常に存在します。

ミスセンス変異は遺伝子変異の一般的な形態ですが、ヒトではそのほんの一部しか観察されておらず、解釈できるのは 0.1% だけです。

ミスセンス変異の影響を正確に予測することは、希少疾患や遺伝性疾患の研究と予防において重要な役割を果たします。今回、DeepMindは再び行動を起こしました。

著者 | 雪才

編集者 | 三陽市 鉄塔

この記事は、HyperAI Super Neural WeChat パブリック プラットフォームで初めて公開されました。~

ヒトゲノムには合計 31 億 6,000 万塩基対があります。これらの塩基対は毎日複製、転写、翻訳を繰り返し、最終的にタンパク質として発現され、人間の日常的な生理活動を制御します。

このような膨大な作業負荷の下では、繊細な人間の体であっても完璧な状態を維持することは困難です。注意しないと、塩基対の位置がずれて遺伝子変異が発生し、時間が経つとがんにつながる可能性もあります。

ミスセンス突然変異は、遺伝子突然変異の一般的な形態です。DNA の塩基変異により、翻訳されたアミノ酸が変化し、最終的にはタンパク質全体の機能が破壊されます。

図 1: ミスセンス変異の模式図DNA内のアデニンヌクレオチドからグアニンヌクレオチドへの突然変異によるもの翻訳されたアミノ酸はグルタミンからセリンに変化します

現在、ヒトでは400万以上のミスセンス変異が観察されているが、病原性変異または良性変異として分類できるのは2%のミスセンス変異のみである。

ミスセンス変異の役割を正確に予測することで、希少疾患に対する人類の理解を深め、潜在的な遺伝性疾患の予防と治療が可能になります。Multiplex Analysis of variation Effects (MAVE) はタンパク質変異を体系的に分析し、その臨床効果を正確に予測できますが、しかし、この方法は多くの人的資源と物的資源を必要とします。すべてのミスセンス変異の可能性を包括的に分析することは困難です。

この目的を達成するために、DeepMind は AlphaFold を通じてタンパク質の全体構造を分析しました。そして、弱ラベル学習と教師なし学習を組み合わせてAlphaMissenseを開発しました。ミスセンス変異の影響が体系的に分析されました。 AlphaMissense は ClinVar データセットを使用して検証されました。予測精度は90%に達します。

続いて、AlphaMissense はヒトにおける 7,100 万個のミスセンス変異の可能性を予測、このうち 32% は病原性突然変異である可能性があり、57% は良性突然変異である可能性があります。これらの成果は、分子生物学、ゲノミクス、臨床医学、その他の分野の発展を大きく促進するでしょう。この成果は「Science」誌に掲載されました。

図 2: AlphaMissense による 7,100 万個のミスセンス変異の予測結果 (上) と、現在ヒトで観察および確認されている結果 (下)

関連する結果は「Science」に掲載されました

論文リンク:

https://www.science.org/doi/10.1126/science.adg7492

実験プロセス

アルファミスセンス:AlphaFold + 微調整

AlphaMissense に一連のアミノ酸配列を入力すると、配列内のアミノ酸変化の病原性が予測されます。 AlphaMissense の実装は AlphaFold と非常によく似ていますが、アーキテクチャが若干調整されているだけです。

図3:AlphaMissenseの構造図

AlphaMissense のトレーニング セットは幅広いソースから提供されていますが、主に人間と人間以外の霊長類からのものです。このうち、ヒト由来の良性ミスセンス変異は1,248,533個あり、発生する可能性はあるが観察されていない65,314,044個の変異から病原性ミスセンス変異が抽出された。

AlphaMissense トレーニングは 2 つのステップで構成されます。まず、AlphaFold と同様に、AlphaMissense は、複数の配列アライメントでランダムにマスクされたアミノ酸を予測する必要があります。次に、単鎖タンパク質の構造を予測し、タンパク質言語モデリングを実行します。

続いて、研究者らはヒトのタンパク質を使用してAlphaMissenseを微調整した。そして、モデルの出力ターゲット、つまりミスセンス変異の病原性を設定します。

観察されていないミスセンス変異の中には良性の変異もかなりの数ありますが、それらはトレーニング プロセス中に病原性変異として分類されるため、AlphaMissense トレーニング セットは非常にノイズが多くなります。トレーニング セットの量と質を向上させるために、研究者らは自己蒸留を使用してデータをフィルタリングしました。

臨床データの検証:さまざまなデータセットでのパフォーマンス

研修終了後は、AlphaMissense は、注釈付きの臨床データ (ClinVar データセット)、稀な発達障害患者における新規変異 (新規変異体)、および ProteinGym の MAVE 結果を使用して検証されました。

まず、研究者らは ClinVar データセットにおける AlphaMissense のパフォーマンスを評価しました。 18,924の変異部位を分析した結果、AlphaMissense の auROC は 0.940 で、以前の最先端進化モデル (EVE) よりも改善 (0.911) されています。

ミスセンス変異の臨床評価では、一般に特定の疾患に関連する遺伝子に焦点を当てます。したがって、これらの遺伝子の良性ミスセンス変異と病原性ミスセンス変異を区別することが特に重要です。研究者らは、AlphaMissense を使用して ClinVar の 612 個の遺伝子を分析しました。auROC は 0.950 で、EVE の 0.921 よりも優れています。

最後に、研究者らは、解読発達障害 (DDD) データセット内の AlphaMissense の予測結果を分析しました。 AlphaMissense の auROC は 0.809 で、PrimateAI の 0.797 に匹敵します。

図 4: AlphaMissense と、異なるデータセットにおける他のモデルのパフォーマンスの比較

A: ClinVar の変異部位の分析。

B: ClinVar での遺伝子の分析。

C: DDD データセットの分析。

同時に、がんホットスポット、ACMG (American College of Medical Genetics)、およびその他の MAVE データに関する AlphaMissense の予測結果も、他のモデルより優れています。上記の結果は、AlphaMissense が複数のデータセットで既存のモデルよりも優れていることを示しています。

全体的な予測パフォーマンス:タンパク質の変異傾向を反映する

AlphaMissenseを臨床データで検証した後、研究者らは、AlphaMissense を使用して、19,233 の一般的なヒトタンパク質に含まれる 2 億 1,600 万個のアミノ酸の突然変異の可能性を予測し、最終的に 7,100 万個のミスセンス突然変異の予測を取得しました。

AlphaMissense の病原性予測結果は 0 ~ 1 であり、1 に近いほど病原性の可能性が高くなります。予測の大部分は 0 と 1 に近いため、0.2 ~ 0.8 の数値は精度が低くなる可能性があります。最終的に、彼らは予測を 3 つのカテゴリに分類しました。おそらく病原性、おそらく良性、そして未確定。

AlphaMissense の予測性能を総合的に評価するために、研究者らはすべてのタンパク質について個々のアミノ酸の病原性を計算しました。結果は次のようになります。実際の結果と一致して、芳香族アミノ酸とシステインの変異は病気を引き起こす可能性が高く、これら 2 つのアミノ酸はタンパク質の構造を維持する役割を果たすためです。

図 5: AlphaMissense の予測結果のヒート マップカラーブロックは、プロテオーム内の 2 億 1,600 万個のアミノ酸変化の平均的な病原性を表します。

AlphaMissense の予測結果と AlphaFold で予測されたタンパク質構造を視覚化すると、これらのタンパク質の変異傾向がわかります。たとえば、タンパク質構造が乱れた領域は良性の突然変異が発生した領域に対応し、これはプロテオミクスからの予測と一致します。

図 6: ACMG および MAVE データセット内のいくつかのタンパク質の視覚化結果

左側は、AlphaMissense によって予測された病原性を赤で示し、ClinVar データセットに含まれている可能性のある良性ミスセンス変異を黒丸で示しています。右側は、AlphaFold によって予測されたタンパク質構造です。異なる色は、AlphaMissense に対応する、この領域の変異の病原性を示します。

予測精度:MAVE の結果と一致する

AlphaMissense と MAVE の結果の一貫性を調査するために、研究者らは AlphaMissense を使用して 2 セットの MAVE データを分析しました。他の予測方法と比較して、AlphaMissense は MAVE データに最も近いです。

図 7: AlphaMissense と他のモデルおよび MAVE 予測の間のスピアマン相関係数その中でもAlphaMissenseが最も良い結果をもたらしました

次に、AlphaMissense の予測データと実験的に検証されたミスセンス変異の病原性を比較しました。 SHOC2 タンパク質は、MRAS および PP1C タンパク質と複合体を形成して、Ras-MAPK がん経路を活性化します。 AlphaMissense と MAVE は、この変異と Ras がん細胞の関連性を予測しました。得られたスピアマン相関係数は 0.47 であり、他のモデルよりも優れています。 (ESM1v: 0.41、ESM1b: 0.40、EVE: 0.32)。

図 8: さまざまなモデルによる MAVE データセット内のミスセンス変異の予測結果

さらに研究者らは、SHOC2タンパク質のさまざまな領域におけるアミノ酸ミスセンス変異の病原性に関するAlphaMissenseの予測結果を調査した。 SHOC2 の最初の 80 アミノ酸のうち、アミノ酸 63 ~ 74 の変異は病原性であると予測されています。これは、この領域が RVxF を介して PP1C タンパク質に結合するためです。 AlphaMissense は、この重要な領域を識別する唯一のモデルです。

図 9: SHOC2 タンパク質の AlphaMissense 予測結果

A: SHOC2 タンパク質の最初の 200 アミノ酸における変異の病原性に関するさまざまなモデルの予測結果。上から下は実際の状況 (MAVE)、AlphaMissense、EVE です。

B: SHOC2タンパク質(赤と青)、MRAS(黄色)、PP1C(金)タンパク質からなる複合体の構造図。

さらに、AlphaMissense は、さまざまな種類のアミノ酸ミスセンス変異の結果を反映することができます。SHOC2 タンパク質の場合、AlphaMissense の予測結果が実際の結果に最も近くなります。

図 10: SHOC2 におけるアミノ酸変異の病原性に関するさまざまなモデルの予測と MAVE の結果の間の相関関係

上記の結果は、AlphaMissense の予測結果が MAVE と同等であり、遺伝子ミスセンス変異の結果を正確に予測できることを示しています。

最後に、ディープマインドは、この結論が他の分野の研究に役立つことを期待して、モデルと予測結果をオープンソースとしてコミュニティにリリースしました。

モデルリンク:

https://github.com/deepmind/alphamissense

遺伝子変異:手の届かないところにあるが、常に存在する

遺伝子の突然変異というと、X線、核放射線、亜硝酸塩やその他の危険な元素、あるいは映画『バイオハザード』や『インクレディブル・ハルク』のワンシーンを簡単に思い浮かべて、それらは私たちとはあまりにも遠いものであると感じます。確かに、私たちが生活の中で被曝する放射線は非常に微量です。しかし、遺伝子変異は今でも人生のあらゆる瞬間に発生しており、私たちの生活を真に変えています。

私たちは生きていると必然的に放射線にさらされることになります。、太陽光など。太陽光に含まれる 6% の放射は紫外線から発生し、紫外線は発がん物質の 1 つであるため、長時間日光にさらされると皮膚がんのリスクが増加します。

放射線源との接触がなくても、DNA は複製、転写、翻訳中に必然的に何らかの間違いを犯し、遺伝子変異を引き起こします。しかし、これらの突然変異は良性であるか、免疫機構によってやがて解消される可能性があります。

しかし同時に、遺伝子変異は私たちの生活に利便性をもたらします。特に農業生産において。作物の突然変異体は、作物の収量を増やし、塩アルカリに対する作物の耐性を改善し、さらには害虫の予防にも役立ちます。これらの変異株を育種・選別すると、優れた特性を維持し、穀物の収量を増加させることができます。

図 11: さまざまな品種のトウモロコシ変異体

しかし、人体には遺伝子変異の可能性が非常に多く、現在わかっていることは大海の一滴に過ぎません。 AlphaMissense の助けを借りて、遺伝子変異の結果を比較的信頼性の高い予測し、それをバックエンドすることができます。おそらく、遺伝性疾患や希少疾患の背後にあるメカニズムを解明し、疾患の予防と治療のための新しい方法を提供できるかもしれません。

同時に、AlphaMissense は他の分野の研究のための資料も提供します。おそらく近いうちに、AlphaMissense が他の種の遺伝子変異を解釈できるようになるでしょう。そうすれば、遺伝子変異を合理的に利用でき、遺伝子工学が私たちの生活により多くの利益をもたらすことができるようになります。

参考リンク:

[1]https://www.science.org/doi/10.1126/science.abj6987

[2]https://www.cshl.edu/discovery-of-new-stem-cell-pathway-indicates-route-to-much-higher-yields-in-maize-staple-crops/

この記事は、HyperAI Super Neural WeChat パブリック プラットフォームで初めて公開されました。~