ワクチン研究開発における新たなブレークスルー:北京のチームがウイルス抗原の免疫原性を予測する新しい方法であるVirusImmuを提案

特色图像

感染症は、人間の健康と生命を深刻に脅かす主要な病気の一種です。これまでに発見された 4,000 種類以上のウイルスのうち、100 種類以上が人間の健康と生命を直接脅かす可能性があります。さらに恐ろしいのは、新しい病原体が絶えず発見されていることです。メディアの報道によると、過去20年間に世界で発見された32の新たな感染症のうち、約半数が我が国で発生したとのことです。

したがって、ワクチン開発は特に重要です。ワクチン開発の長いプロセスにおいて、最初の仕事は防御免疫原を特定することです。機械学習 (ML) 手法は、微生物のプロテオームなどのビッグデータの分析において非常に効率的であり、新しいワクチン候補を開発するための実験作業のコストを大幅に削減できます。

北京航空航天大学のLi Jingらは、ウイルス抗原の免疫原性を予測するための機械学習アンサンブル手法(Viruslmmu)を開発した。これは、ウイルスタンパク質断片の免疫原性の予測に大きな可能性を示し、開発者が提供するワクチンに有望なソリューションを提供する。より包括的なツール。関連コンテンツは bioRxiv で公開されています。

用紙のアドレス:
https://www.biorxiv.org/content/10.1101/2023.11.23.568426v1
公開アカウントをフォローし、「Immunity」に返信して論文をダウンロードしてください

データセット: トレーニングとテストに関与する数百の抗原

トレーニングおよびテストのデータ セットは、100 個の抗原 (ポジティブ セット) と 100 個の非抗原 (ネガティブ セット) で構成されます。

データセットのダウンロードアドレス:

https://github.com/zhangjbig/VirusImmu/tree/main/data

データセットの収集、モデルの構築、特徴の選択のプロセス

防御抗原は、文献からスクリーニングされた検証済みのタンパク質抗原です。対応するタンパク質配列は、UniProt (Universal Protein) および NCBI (National Center for Biotechnology Information) からのもので、完全なフラグメントを持つタンパク質が推奨されます。
注: UniProt は、最も有益で広くリソースが提供されているタンパク質データベースです。

保護されていないタンパク質配列 (非抗原) は、ウイルス バイオインフォマティクス リソース センターからランダムに選択されました。

研究者らは、BLAST (Basic Local Alignment Search Tool) を使用して、非抗原と抗原の間に配列同一性がないことを確認し、ランダムサンプリング相互検証戦略を使用して、陽性データセットと陰性データセットからテストセットを取得しました。 20%。 50 のランダム化が実行されました。
注: BLAST は、生体高分子配列アラインメント検索ツールです。

外部データセットは科学研究者によって独自に構築され、59 個の抗原と 54 個の非抗原で構成されています。抗原配列は UniProt および Protegen データベースから手動で整理され、非抗原配列は同じトレーニング方法を使用して UniProt からランダムに選択されました。 。

最適なアンサンブル モデル VirusImmu を構築する

過去 10 年間にわたり、タンパク質抗原の免疫原性を予測する方法は、フィルタリングと分類という 2 つの主要なカテゴリに分類されてきました。分類予測の最も代表的な方法は、防御細菌抗原を予測する方法を提案する VaxiJen です。

しかし、VaxiJen は細菌の免疫原性の予測に焦点を当てており、VaxiJen の限界を克服するために、北杭大学の研究者はウイルスの免疫原性予測のための統合機械学習手法である VirusImmu を提案しました。

従来の単一の回帰アルゴリズムのみを使用するか、単に多数決に基づく VaxiJen とは異なり、VirusImmu はソフト投票法を使用して、ランダム サンプリングの相互検証戦略を通じて抗原免疫原性を予測する際の 8 つの機械学習モデルのパフォーマンスを評価します。

研究者らは合計 50 ラウンドのランダム化実験を実施し、各ラウンドでデータセットをトレーニング セットとテスト セットに 8:2 の比率で分割しました。トレーニング セットを適用して各モデルをトレーニングし、テスト セットに対するトレーニング済みモデルの免疫原性予測を評価しました。

一般的に使用される 8 つの機械学習モデルの平均 ROC 統計

50 ラウンドのランダム化実験の平均 ROC 統計は、RF が最も強い予測力を持っていることを示しています。

モデルの免疫原性の予測能力を向上させるために、研究者らは、最初の 3 つのモデル (RF、XGBoost、kNN) に基づいてソフト投票アンサンブル分類器 (VirusImmu) を構築しました。RF、XGBoost、kNN の予測は重み付けされて結合され、重み付けされた確率の合計が得られます。

RF の重みを決定すると、パフォーマンスが低下します。

結果は、VirusImmu が個々のテスト セット モデルよりも優れていることを示しています。

タンパク質の配列長に影響されない VirusImmu は優れたパフォーマンスを発揮します

* 比較実験 1: VirusImmu と VaxiJen の性能比較

VaxiJen は、タンパク質配列の物理化学的特性を利用して免疫原性を予測する数少ない方法の 1 つです。 VirusImmu とは異なり、Vaxijen は単一の従来の回帰アルゴリズムまたは多数決を使用します。したがって、研究者らは VirusImmu と VaxiJen のパフォーマンスを比較しました。

テストセットでは、VirusImmu の AUC (曲線下面積、ROC 曲線) は 0.782、VaxiJen の AUC=0.75 は、VirusImmu が VaxiJen より優れていることを示しています (信頼区間は 95%)。

※比較実験2:VirusImmuとRF、kNNとXGBoostの性能比較

VirusImmu のパフォーマンスをさらに検証するために、研究者は 59 個の抗原と 54 個の非抗原を含む外部テスト セットを独自に収集しました。

ROC 曲線は、VirusImmu (AUC=0.712) が RF (AUC=0.676) や kNN (AUC=0.699) よりも優れており、そのパフォーマンスが XGBoost (AUC=0.717) と同等であることを示しています。 VaxiJen は、外部テスト セットで最も悪いパフォーマンスを示します (AUC=0.609)。

要するに、VirusImmu は、テスト セットと外部テスト セットの両方で、一般的に使用される 8 つの ML 予測方法および VaxiJen よりも安定したタンパク質免疫原性予測を生成しました。

* 比較実験 3: VirusImmu、NetBCE、EpiDope の性能比較

研究者らはまた、VirusImmu のパフォーマンスを、最近リリースされた 2 つの予測方法、NetBCE および EpiDope のパフォーマンスと比較しました。 NetBCE は、24 アミノ酸より小さいタンパク質配列の免疫原性のみを予測できます。VirusImmu は、長いタンパク質配列フラグメントと短いタンパク質配列フラグメントの両方を処理できます。 EpiDope は言語モデル埋め込み (ELMo) ディープ ニューラル ネットワーク (DNN) と長短期記憶 (LSTM) DNN を組み合わせており、AUC は 0.667 ですが、そのパフォーマンスも VirusImmu (AUC=0.712) よりも劣ります。

VirusImmuと他モデルの性能比較

※比較実験4:Virusimmuと他機種との堅牢性比較

すべてのモデルの堅牢性をテストするために、研究者らは、外部テストセットから約 301 個の TP3T 抗原および非抗原サンプルを使用して、50 ラウンドのランダムサンプリングを実施しました。 VirusImmu は、AUC と F1 スコアの点で VaxiJen よりも優れたパフォーマンスを達成しました。
注: F1 スコアは、モデルの精度と再現率の調和平均です。

モデルの予測力はタンパク質配列の長さに影響される可能性があるため、研究者らは外部テストセットをタンパク質配列長ごとに200 bp刻みで5つのグループにグループ化し、その後50ラウンドのランダムサンプリングを実施した。

XGBoost と Virusimmu は両方とも、外部検証データで良好なパフォーマンス (上位 2 つ) を達成しました。XGBoost の AUC は Virusimmu よりわずかに優れていますが、F1 スコアは劣っています。 200 bp 未満および 600 ~ 800 bp のタンパク質に対する XGBoost の処理効果も、Virusimmu よりも劣ります。

ほとんどのエピトープは長さが 200 未満のタンパク質フラグメントであるため、Virusimmu は XGBoost よりも優れたアプリケーション シナリオを備えています。

全体、Viruslmmu は配列比較に基づいておらず、タンパク質配列の長さの影響を排除しているため、類似の予測ツールと比較して、より高い精度とより高い汎用性でタンパク質やペプチドの予測に適しています。

VirusImmuの信頼性をさらに証明するために、研究者らは公開文献からSARS-CoV-2エピトープを選択し、VirusImmuの免疫原性予測能力を検証した。

結果は次のようになります。4 つの文書に含まれる合計 15 個のエピトープのうち、14 個が VirusImmu によって抗原として予測され、ウイルスタンパク質の免疫原性の予測における VirusImmu の優れた性能が検証されました。

VirusImmu はアフリカ豚コレラウイルス (ASFV) ペプチドワクチン候補の特定に役立ちます

現在、アフリカ豚コレラウイルスに対する効果的なワクチンや治療法はないため、防御抗原を特定する必要があります。この研究では、ウイルスの構造的完全性にとって重要なASFV pp220ポリタンパク質に、ブタに強力な免疫反応を誘導する可能性のあるエピトープが含まれていることが判明し、ワクチン開発への応用の可能性が示された。

抗原性エピトープを同定するために、研究者らは、BCPred や免疫エピトープデータベース (IEDB) サーバーなど、最も一般的な 17 の方法を使用して、pp220 タンパク質から 1,376 個の B 細胞線状エピトープ候補を予測しました。

研究者らは、厳密な基準を使用して抗原性エピトープを除外しました。VaxiJen≤1.3 の予測結果によれば、29 個のエピトープが残り、そのうち 12 個は非アレルゲンおよび非毒素として分類されました。 VirusImmu は、12 エピトープのうち 8 が抗原性であると予測します。

抗原 B 細胞エピトープの抗体への結合の測定

ASFV血清IgG抗体への8つのエピトープの結合を確認するために、研究者らはASFVに感染したブタ5頭と健康なブタ5頭から混合血清を採取した。

間接ELISAアッセイでは7つの抗原性線状B細胞エピトープが確認されたが、そのうちの1つはASFV感染ブタの血清抗体と特異的かつ用量依存的に反応したが、健康なブタでは反応しなかったのに対し、任意の対照ペプチド(「RRRRRRRRRRRRRR」)は効果を示さなかった。 VirusImmu によって非抗原性であると予測されたエピトープ (「VLEEQSKIDPNF」) も、血清抗体に対する特異的結合を示さなかった。

これらの結果は、現実世界のシナリオにおける VirusImmu のアプリケーションの強力な例を示しています。

AI技術がワクチン開発を加速

科学技術の急速な発展に伴い、ディープマインド社が開発したアルファフォード2によるタンパク質構造予測の成功や、その後のタンパク質生成などの新技術など、AIは生物医学の分野で次々と新たな進歩を遂げています。医薬品の研究開発プロセスでは、AI テクノロジーはむしろツールとしての役割を果たします。

アルファフォード 2 のアーキテクチャ

まず、AI はウイルスゲノムの分析と予測に使用できます。AI は、大量のウイルス ゲノム データに対してディープ ラーニングとパターン認識を実行することで、ウイルスの突然変異と進化の傾向を正確に予測でき、科学者がウイルスの重要なタンパク質標的を迅速に特定し、関連するワクチンを迅速に開発できるようになります。

第二に、AI はワクチン開発の薬剤スクリーニング段階で重要な役割を果たします。従来の薬剤スクリーニングプロセスは通常、時間がかかり、労力と不確実性が伴いますが、AI は大規模なシミュレーション実験やデータマイニングを通じて薬剤とウイルスの相互作用を迅速に評価し、潜在的に活性のある薬剤候補を選別し、ワクチンの研究開発を改善することができます。効率。

さらに、AI を使用してワクチン臨床試験の設計を最適化することもできます。AI は、大規模な実験データをシミュレートすることで、科学者が人体におけるワクチンの反応と効果を予測および評価し、起こり得る安全性の問題や副作用を事前に発見し、治験の設計を最適化するのに役立ちます。

市場の観点から見ると、多国籍製薬企業はAI技術に注目する傾向があります。 AIコンサルティング会社ディープ・ファーマ・インテリジェンスの統計によると、2022年12月時点で、世界中のAI製薬会社800社への投資総額は59億3,000万米ドルに達し、9年間で27倍に増加した。

では、ワクチンやその他の薬剤の研究開発において、AI技術は依然としてどのような課題に直面しているのでしょうか?復旦大学経営大学院情報管理・ビジネスインテリジェンス学科助教授の李文文氏によると、AIアルゴリズムの形成には学習するために膨大な量のデータが必要であり、医薬品研究開発の分野では、これらのデータには関連するデータが含まれているという。タンパク質の構造、アミノ酸配列のさまざまな文字列など。

現在、医薬品の研究開発における AI テクノロジーの難しさは、データの取得と蓄積にあり、臨床検査データは高価であること、製薬会社が十分なデータを共有していないこと、および基本的なラベル付きデータが不足していることなどが挙げられます。