2020年初頭、新型コロナウイルスの影が瞬く間に世界を覆った。この時間との闘いの中で、私たちは数え切れないほどの英雄的な個人やチームが前進するのを目撃してきました。また、社会システムは何度も厳しい試練を経験し、それが世界の公衆衛生分野にも警鐘を鳴らしています。
コロナウイルスが恐れられる主な理由は、それがRNAウイルスであるためです。このタイプのウイルスには複製プロセス中のエラー修正メカニズムが欠如しており、突然変異が起こりやすいです。この突然変異能力により、RNA ウイルスが種を越えて広がり、宿主範囲を拡大できるだけでなく、病原性の変化を引き起こす可能性もあります。本来は人間に無害なウイルスが変異すると、病原性を帯びて病気を引き起こす可能性があります。人間は一般にこのような変異ウイルスに対する免疫を持たないため、ウイルスが変異すると急速に大規模な病気の流行を引き起こす可能性があります。
ウイルスは人の健康と密接な関係にありますが、人類に知られているウイルス種は確認されているだけで5,000種以上しかなく、氷山の一角とも言えます。従来の RNA ウイルスの同定方法は、配列相同性の比較、つまり、既知のウイルスとの配列類似性を比較することによって未知のウイルスを同定することに大きく依存しています。しかし、RNAウイルスは種類が多く、高度に分化しているため、相同性を持たない、または相同性が極めて低い「暗黒物質ウイルス」を従来の方法で捕捉することは困難でした。これにより、新しいウイルスの発見効率が制限されます。
過去 10 年間、人工知能関連の手法、特に深層学習アルゴリズムは、生命科学のさまざまな研究分野に大きな影響を与えてきました。 AI とウイルス学の研究を組み合わせることで、RNA ウイルスの同定という困難な問題を人類が突破する新しい方法が提供されています。
最近、中山大学医学部のShi Mang教授は、浙江大学、復旦大学、中国農業大学、香港城市大学、広州大学、シドニー大学、アリババクラウド飛天研究所などと協力して、新しい深層学習モデル LucaProt。このモデルは、クラウド コンピューティングと AI テクノロジーを使用して、既知のウイルスの種類のほぼ 30 倍である 180 のスーパーグループと 160,000 を超える新しい RNA ウイルスを発見しました。これにより、RNA ウイルスの多様性とウイルスの歴史についての業界の理解が大幅に向上しました。進化。この研究ではまた、47,250ヌクレオチドの長さを持つこれまでで最長のRNAウイルスゲノムも発見され、RNAウイルス同定の分野における大きな進歩となった。
この研究は「人工知能を使用して隠されたRNAウイルス圏を文書化する」と題され、国際学術誌「Cell」に掲載された。
研究のハイライト:
* 人工知能主導のメタゲノム マイニング技術により、世界的な RNA ウイルスの多様性が前例のない拡大を達成
* 正確な同定により、161,979 の潜在的な RNA ウイルス種と 180 のウイルス スーパーグループの存在を発見
* この研究では、これまでで最も長い RNA ウイルスのゲノムが発見され、モジュール構造の特徴を持つ可能性があります。
用紙のアドレス:
https://doi.org/10.1016/j.cell.2024.09.027
公式アカウントをフォローし、バックグラウンドで「RNA ウイルスの特定」に返信すると、全文の PDF が入手できます
オープンソース プロジェクト「awesome-ai4s」は、100 を超える AI4S 論文の解釈をまとめ、大規模なデータ セットとツールを提供します。
https://github.com/hyperai/awesome-ai4s
この研究では、世界中のさまざまな生態系における RNA ウイルスの多様性について詳細な研究を行うことを目的として、まず NCBI SRA や CNGBdb などのデータベースで系統的な検索を実施しました。
以下の図 A に示すように、研究チームは地球規模の生物学的環境サンプルから合計 10,487 個のデータをスクリーニングしました。関与した配列決定データの合計は 51 TB に達し、13 億を超えるフラグメントと 8 億 7,200 万個の予測タンパク質が生成されました。これらの大規模なデータセットを使用して、潜在的なウイルス RdRP を発見して検証し、2 つの異なる戦略を使用してそれらを相互検証しました。
2 つの検索戦略の結果を統合することで、この研究では、161,979 の潜在的なウイルス種と 180 の RNA ウイルス スーパーグループを表す 513,134 のウイルス ゲノムが特定されました。この発見により、RNA ウイルスの超集団に関する研究の理解が大幅に広がり、そのサイズは約 9 倍に拡大し、ウイルスの種類の数は約 30 倍に増加しました。
以下の図 C に示すように、この研究では他の研究の RdRP タンパク質配列を比較しました。新たに同定された合計 70,458 の潜在的にユニークなウイルス種が明らかになりました。
この研究では、これまで認識されておらず、十分に調査されていなかった60のスーパーグループも明らかになりました。これらのスーパーグループはこれまで限られた注目しか受けていません。特に注目すべきは、以下の図 D に示すように、この研究で、スーパーグループのうち 23 個が従来の配列相同性手法では同定できないことが判明したことです。これらはウイルス圏の「暗黒物質」と呼ばれています。
この研究では、データ駆動型の深層学習モデル、LucaProt が開発されました。以下の図 E に示すように、LucaProt は、入力、トークナイザー、エンコーダー、プーリング、出力の 5 つのコア モジュールで構成されています。
*入力:主にアミノ酸配列の受け取りを担当します。
*トークナイザー:主に、元のシーケンスをモデルが理解できる形式に変換する役割を果たします。このモジュールには、ウイルス RdRP 配列と非ウイルス RdRP 配列のコーパスの構築と、BPE アルゴリズムを使用してタンパク質配列を個々のアミノ酸に分解して構造情報を抽出する語彙を作成することが含まれます。
*エンコーダー:これは主に、データを 2 つの表現に変換する役割を果たします。1 つは Transformer-Encoder によって生成されたシーケンス表現行列、もう 1 つは構造予測モデル ESMFold によって生成された構造表現行列です。このデュアルトラック表現方法は、3D 構造データの不足の問題を解決するだけでなく、計算効率も向上します。
*プーリング:主に、値レベル アテンション プーリング法 (VLAP) を通じてシーケンス行列と構造行列を 2 つのベクトルに変換し、次元を削減し、効果的な分類のための特徴を選択します。
*出力:これは主に、これらのベクトルをサンプルがウイルス RdRP である可能性を示す確率値に変換する役割を果たします。配列はシグモイド関数によってウイルス RdRP または非ウイルス RdRP に分類されました。
ファイナル、この研究では、235,413 個のサンプルを含むデータセットが慎重に準備されました。モデルの精度と一般化能力を向上させることを目的としています。このデータセットは、よく研究された 5,979 個のウイルス RdRP (陽性サンプル) と 229,434 個の非ウイルス RdRP (陰性サンプル) で構成されており、タンパク質配列と固有の構造的特徴を組み合わせた、Transformer フレームワークと大規模モデル特性評価技術に基づいています。精度、効率、検出されたウイルスの多様性は従来の方法よりも優れています。
さらに、LucaProt は配列データだけでなく、タンパク質の機能を正確に予測するために重要な構造情報も統合します。
LucaProt のパフォーマンスを包括的に評価するために、この研究では、その精度と効率の包括的な検証を確実にするために、複数の角度から詳細な分析を実施しました。
※LucaProtの性能評価
* 新たに発見されたウイルススーパーグループがRNAウイルスであるかどうかを検証および確認します
* RNAウイルスゲノム構造のモジュール性と柔軟性の解析
* RNAウイルスの系統的多様性解析
* 世界規模のRNAウイルスの生態構造解析
LucaProt のパフォーマンスを評価するために、この研究では他の 4 つのウイルス検出ツールに対してベンチマークを実施しました。結果は、図 A に示すように、LucaProt は、比較的低い偽陽性率を維持しながら、最も高い再現率を示します。
計算効率の観点からは、図 E に示すように、LucaProt が異なる長さのデータ セットを処理する場合、6 つのデータ セットの平均計算時間に基づいて、より合理的な効率を発揮します。
最後に、図 FH に示すように、LucaProt に統合された高度な Transformer アーキテクチャにより、より長いアミノ酸配列の並列処理が可能になります。このアーキテクチャは、他のバイオインフォマティクス ツールで一般的に使用されている CNN/RNN エンコーダよりも、配列空間の離れた部分間の関係を捕捉するのに効果的です。
新しく発見された RNA ウイルス スーパーグループの検証と構造的特徴付け。そのほとんどは既存の RdRP との配列類似性を示します。
研究チームは、これらのサンプルで特定された115のウイルススーパーグループの存在を検証することを目的として、50の環境サンプルからDNAとRNAを抽出して配列決定した。図Bに示すように、RNAシーケンシングリードのみがウイルスRdRPに関連する配列にマッピングされるのに成功しましたが、RNAおよびDNAシーケンシングリードはそれぞれDNAウイルス、レトロウイルス(RT)、および細胞生物に関連する配列にマッピングされました。
さらに、図Cに示すように、より高感度のRT-PCR法を適用することで、研究チームは115のウイルススーパーグループのうち17をさらに確認しました。これらのスーパーグループでは、DNA 抽出ではウイルス RdRP をコードする配列を検出できませんでした。これは、これらのウイルス スーパーグループが実際に RNA 生物であることをさらに裏付けています。
この研究では、推定RNAウイルスゲノムの組成と構造を詳細に分析したところ、ほとんどのゲノムの長さは約2,131ヌクレオチドに集中しているものの、RdRPをコードするゲノムまたはゲノム断片の長さはスーパーグループごとに大きく異なることが判明した。特に、この研究では、図 C に示すように、土壌サンプルから非常に長い RNA ウイルス ゲノムが特定されました。ゲノムの 1 つは長さ 47.3 kb です。これは、最も古くから知られている RNA ウイルスの 1 つです。今回の研究では、この超長いゲノムにおいて、末端 50 と RdRP コード領域の間に位置する追加の ORF が見つかりましたが、その機能についてはさらなる研究が必要です。
この研究では、以下に示すように、国際ウイルス分類委員会 (ICTV) によって定義されたものと比較して RNA ウイルス種の数が 55.9 倍増加し、以前に記載されたすべての RdRP 配列と比較して 1.4 倍増加していることも判明しました。 。この拡大は、既知のウイルス グループの多様性の増大において特に顕著です。
注目すべきことに、AstroPoty、Hypo、Yan、および新しく発見されたいくつかのスーパーグループなど、これまで限られた数のゲノムのみで表されていたいくつかのグループは、高いレベルの系統学的多様性を示します。たとえば、SG023 には 1,232 個のウイルスが含まれ、SG025 には 466 個のウイルスが含まれ、SG027 には 475 個のウイルスが含まれます。これは、より高度に分化した RNA ウイルスが環境サンプル中に存在する可能性があることを示唆しています。私たちが発見するのを待っています。
この研究では、RNAウイルスが世界中の1,612の場所と32の生態系に存在していることが示された。図 A に示すように、何度も研究された生態学的サンプルでも、LucaProt は依然として 5-33.3% という新しいウイルス グループを発見しました。これは、RNA ウイルスの多様性が、特に土壌および水生環境において十分に調査されていないことを示しています。
この研究では、さまざまな生態系における RNA ウイルスのアルファ多様性と存在量も比較されました。パネル CD に示されているように、アルファ多様性は落ち葉、湿地、淡水、および廃水環境で最も高く、存在量は南極の堆積物、海洋堆積物、および淡水生態系で最も高くなります。多様性と存在量は岩塩および地下環境で最も低く、これは宿主細胞数が少ないことと一致しています。温泉や熱水噴出孔などの極端な生態学的サブタイプでは、多様性は低いものの、RNA ウイルスが中程度に豊富に存在します。
実際、RNA ウイルス研究の分野での AI の応用は、科学的探求における強力なトレンドとなっています。中山大学のShi Mang教授が率いる科学研究チームは、AIテクノロジーを利用して画期的な進歩を遂げ、16万以上の新しいRNAウイルスを発見した。この成果は、この分野における重要なマイルストーンとなる。
しかし、早ければ2022年に、米国、フランス、スイスなどの科学者の協力を得た国際研究チームが、人工知能機械学習テクノロジーを使用して、世界中の海水サンプルから 5,500 個の新しい RNA ウイルスが特定されました。RNAウイルスデータベースの構築に貢献。この研究は生態学的研究の範囲を広げるだけでなく、RNAウイルスの進化に対する人々の理解を深め、地球上の初期生命の進化を探る新たな手がかりを提供します。
研究結果は、「地球のRNAバイロームの進化的起源にある謎めいた豊富な海洋ウイルス」というタイトルでサイエンス誌に掲載された。
* 論文リンク:
https://doi.org/10.1126/science.abm5847
もちろん、RNA ウイルス研究における AI の応用は、未知の分野の探索に限定されるものではなく、既知の分野における徹底的な研究にも重要です。たとえば、RNA ウイルスである COVID-19 は、世界的に共有される GISAID データベースに 1,600 万近くのゲノム配列を持っています。これらのデータは研究に豊富な情報を提供しますが、新型コロナウイルス感染症の進化と歴史を分析するには多大な計算資源と人的資源も必要とします。
この課題に対処するために、2024 年初頭、マンチェスター大学とオックスフォード大学の科学者たちは、関連する新型コロナウイルス感染症の変異種を特定して追跡できる AI フレームワークを開発しました。これは、将来他の感染症への取り組みに役立つ可能性があります。このフレームワークは、次元削減技術と、マンチェスター大学の数学者によって開発された新しい解釈可能なクラスタリング アルゴリズムである CLASSIX を組み合わせて、潜在的に危険なウイルス ゲノムを迅速に特定します。米国科学アカデミー紀要に掲載されたこの研究は、ウイルス進化を追跡する新しい方法を提供し、従来のウイルス進化追跡方法に影響を与える可能性があります。
業界では、RNA ウイルスの研究も同様に活発に行われています。 RNA ウイルスは複製中に突然変異率が高いため、RNA ウイルスのワクチン開発は常に困難な問題でした。 2023 年上半期には、AI 支援による医薬品研究開発の応用が増加すると予想されます。Baidu カリフォルニア支社の科学者は AI を使用して mRNA ワクチンの徹底的な最適化を実施し、配列だけでなく構造も改善して分子の安定性を向上させました。人体内でより長期間活性を維持できるようになります。この技術が安全性の面で検証されれば、新世代のRNAワクチン開発の強力なツールとなり、RNA医薬品開発の分野にも新たなアイデアを提供する可能性がある。
2023年下半期、Deep Genomicsは「RNA基礎モデルにより疾患メカニズムと候補治療法の発見が可能」をリリースし、独自の人工知能基本モデルBigRNAを導入した。 BigRNA は、RNA 生物学および治療用の初の Transformer ニューラル ネットワークであり、約 20 億の調整可能なパラメーターを備え、1 兆のゲノム信号を含む数千のデータセットでトレーニングされています。さまざまな RNA 治療法の発見タスクに適用できる、新世代の深層学習 AI を表します。
将来に目を向けると、RNA ウイルス研究における AI の応用の可能性も非常に広くなっています。コンピューティング能力が向上し、アルゴリズムが向上するにつれて、AI はより大きなデータセットを処理し、より多くの未知のウイルス集団とその宿主および感染経路を特定できるようになる可能性があります。これは、生態系における RNA ウイルスの役割について人々の理解を深めるだけでなく、将来起こり得る伝染病の予防と制御に対する強力なサポートも提供するでしょう。
さらに、ワクチン設計や医薬品開発における AI の応用は、人々が間もなくより個別化された正確な医療ソリューションをもたらし、世界の公衆衛生安全保障に新たな希望をもたらす可能性があることを示しています。