ワクチン研究開発における新たなブレークスルー：北京のチームがウイルス抗原の免疫原性を予測する新しい方法であるVirusImmuを提案

2年前

感染症は、人間の健康と生命を深刻に脅かす主要な病気の一種です。これまでに発見された 4,000 種類以上のウイルスのうち、100 種類以上が人間の健康と生命を直接脅かす可能性があります。さらに恐ろしいのは、新しい病原体が絶えず発見されていることです。メディアの報道によると、過去20年間に世界で発見された32の新たな感染症のうち、約半数が我が国で発生したとのことです。

したがって、ワクチン開発は特に重要です。ワクチン開発の長いプロセスにおいて、最初の仕事は防御免疫原を特定することです。機械学習 (ML) 手法は、微生物のプロテオームなどのビッグデータの分析において非常に効率的であり、新しいワクチン候補を開発するための実験作業のコストを大幅に削減できます。

北京航空航天大学のLi Jingらは、ウイルス抗原の免疫原性を予測するための機械学習アンサンブル手法（Viruslmmu）を開発した。これは、ウイルスタンパク質断片の免疫原性の予測に大きな可能性を示し、開発者が提供するワクチンに有望なソリューションを提供する。より包括的なツール。関連コンテンツは bioRxiv で公開されています。

用紙のアドレス:
https://www.biorxiv.org/content/10.1101/2023.11.23.568426v1
公開アカウントをフォローし、「Immunity」に返信して論文をダウンロードしてください

データセット: トレーニングとテストに関与する数百の抗原

トレーニングおよびテストのデータセットは、100 個の抗原 (ポジティブセット) と 100 個の非抗原 (ネガティブセット) で構成されます。

データセットのダウンロードアドレス:

https://github.com/zhangjbig/VirusImmu/tree/main/data

防御抗原は、文献からスクリーニングされた検証済みのタンパク質抗原です。対応するタンパク質配列は、UniProt (Universal Protein) および NCBI (National Center for Biotechnology Information) からのもので、完全なフラグメントを持つタンパク質が推奨されます。
注: UniProt は、最も有益で広くリソースが提供されているタンパク質データベースです。

保護されていないタンパク質配列 (非抗原) は、ウイルスバイオインフォマティクスリソースセンターからランダムに選択されました。

研究者らは、BLAST (Basic Local Alignment Search Tool) を使用して、非抗原と抗原の間に配列同一性がないことを確認し、ランダムサンプリング相互検証戦略を使用して、陽性データセットと陰性データセットからテストセットを取得しました。 20%。 50 のランダム化が実行されました。
注: BLAST は、生体高分子配列アラインメント検索ツールです。

外部データセットは科学研究者によって独自に構築され、59 個の抗原と 54 個の非抗原で構成されています。抗原配列は UniProt および Protegen データベースから手動で整理され、非抗原配列は同じトレーニング方法を使用して UniProt からランダムに選択されました。。

最適なアンサンブルモデル VirusImmu を構築する

過去 10 年間にわたり、タンパク質抗原の免疫原性を予測する方法は、フィルタリングと分類という 2 つの主要なカテゴリに分類されてきました。分類予測の最も代表的な方法は、防御細菌抗原を予測する方法を提案する VaxiJen です。

しかし、VaxiJen は細菌の免疫原性の予測に焦点を当てており、VaxiJen の限界を克服するために、北杭大学の研究者はウイルスの免疫原性予測のための統合機械学習手法である VirusImmu を提案しました。

従来の単一の回帰アルゴリズムのみを使用するか、単に多数決に基づく VaxiJen とは異なり、VirusImmu はソフト投票法を使用して、ランダムサンプリングの相互検証戦略を通じて抗原免疫原性を予測する際の 8 つの機械学習モデルのパフォーマンスを評価します。

研究者らは合計 50 ラウンドのランダム化実験を実施し、各ラウンドでデータセットをトレーニングセットとテストセットに 8:2 の比率で分割しました。トレーニングセットを適用して各モデルをトレーニングし、テストセットに対するトレーニング済みモデルの免疫原性予測を評価しました。

50 ラウンドのランダム化実験の平均 ROC 統計は、RF が最も強い予測力を持っていることを示しています。

モデルの免疫原性の予測能力を向上させるために、研究者らは、最初の 3 つのモデル (RF、XGBoost、kNN) に基づいてソフト投票アンサンブル分類器 (VirusImmu) を構築しました。RF、XGBoost、kNN の予測は重み付けされて結合され、重み付けされた確率の合計が得られます。

RF の重みを決定すると、パフォーマンスが低下します。

結果は、VirusImmu が個々のテストセットモデルよりも優れていることを示しています。

タンパク質の配列長に影響されない VirusImmu は優れたパフォーマンスを発揮します

* 比較実験 1: VirusImmu と VaxiJen の性能比較

VaxiJen は、タンパク質配列の物理化学的特性を利用して免疫原性を予測する数少ない方法の 1 つです。 VirusImmu とは異なり、Vaxijen は単一の従来の回帰アルゴリズムまたは多数決を使用します。したがって、研究者らは VirusImmu と VaxiJen のパフォーマンスを比較しました。

テストセットでは、VirusImmu の AUC (曲線下面積、ROC 曲線) は 0.782、VaxiJen の AUC=0.75 は、VirusImmu が VaxiJen より優れていることを示しています (信頼区間は 95%)。

※比較実験2：VirusImmuとRF、kNNとXGBoostの性能比較

VirusImmu のパフォーマンスをさらに検証するために、研究者は 59 個の抗原と 54 個の非抗原を含む外部テストセットを独自に収集しました。

ROC 曲線は、VirusImmu (AUC=0.712) が RF (AUC=0.676) や kNN (AUC=0.699) よりも優れており、そのパフォーマンスが XGBoost (AUC=0.717) と同等であることを示しています。 VaxiJen は、外部テストセットで最も悪いパフォーマンスを示します (AUC=0.609)。

要するに、VirusImmu は、テストセットと外部テストセットの両方で、一般的に使用される 8 つの ML 予測方法および VaxiJen よりも安定したタンパク質免疫原性予測を生成しました。

* 比較実験 3: VirusImmu、NetBCE、EpiDope の性能比較

研究者らはまた、VirusImmu のパフォーマンスを、最近リリースされた 2 つの予測方法、NetBCE および EpiDope のパフォーマンスと比較しました。 NetBCE は、24 アミノ酸より小さいタンパク質配列の免疫原性のみを予測できます。VirusImmu は、長いタンパク質配列フラグメントと短いタンパク質配列フラグメントの両方を処理できます。 EpiDope は言語モデル埋め込み (ELMo) ディープニューラルネットワーク (DNN) と長短期記憶 (LSTM) DNN を組み合わせており、AUC は 0.667 ですが、そのパフォーマンスも VirusImmu (AUC=0.712) よりも劣ります。

※比較実験4：Virusimmuと他機種との堅牢性比較

すべてのモデルの堅牢性をテストするために、研究者らは、外部テストセットから約 301 個の TP3T 抗原および非抗原サンプルを使用して、50 ラウンドのランダムサンプリングを実施しました。 VirusImmu は、AUC と F1 スコアの点で VaxiJen よりも優れたパフォーマンスを達成しました。
注: F1 スコアは、モデルの精度と再現率の調和平均です。

モデルの予測力はタンパク質配列の長さに影響される可能性があるため、研究者らは外部テストセットをタンパク質配列長ごとに200 bp刻みで5つのグループにグループ化し、その後50ラウンドのランダムサンプリングを実施した。

XGBoost と Virusimmu は両方とも、外部検証データで良好なパフォーマンス (上位 2 つ) を達成しました。XGBoost の AUC は Virusimmu よりわずかに優れていますが、F1 スコアは劣っています。 200 bp 未満および 600 ～ 800 bp のタンパク質に対する XGBoost の処理効果も、Virusimmu よりも劣ります。

ほとんどのエピトープは長さが 200 未満のタンパク質フラグメントであるため、Virusimmu は XGBoost よりも優れたアプリケーションシナリオを備えています。

全体、Viruslmmu は配列比較に基づいておらず、タンパク質配列の長さの影響を排除しているため、類似の予測ツールと比較して、より高い精度とより高い汎用性でタンパク質やペプチドの予測に適しています。

VirusImmuの信頼性をさらに証明するために、研究者らは公開文献からSARS-CoV-2エピトープを選択し、VirusImmuの免疫原性予測能力を検証した。

結果は次のようになります。4 つの文書に含まれる合計 15 個のエピトープのうち、14 個が VirusImmu によって抗原として予測され、ウイルスタンパク質の免疫原性の予測における VirusImmu の優れた性能が検証されました。

VirusImmu はアフリカ豚コレラウイルス (ASFV) ペプチドワクチン候補の特定に役立ちます

現在、アフリカ豚コレラウイルスに対する効果的なワクチンや治療法はないため、防御抗原を特定する必要があります。この研究では、ウイルスの構造的完全性にとって重要なASFV pp220ポリタンパク質に、ブタに強力な免疫反応を誘導する可能性のあるエピトープが含まれていることが判明し、ワクチン開発への応用の可能性が示された。

抗原性エピトープを同定するために、研究者らは、BCPred や免疫エピトープデータベース (IEDB) サーバーなど、最も一般的な 17 の方法を使用して、pp220 タンパク質から 1,376 個の B 細胞線状エピトープ候補を予測しました。

研究者らは、厳密な基準を使用して抗原性エピトープを除外しました。VaxiJen≤1.3 の予測結果によれば、29 個のエピトープが残り、そのうち 12 個は非アレルゲンおよび非毒素として分類されました。 VirusImmu は、12 エピトープのうち 8 が抗原性であると予測します。

ASFV血清IgG抗体への8つのエピトープの結合を確認するために、研究者らはASFVに感染したブタ5頭と健康なブタ5頭から混合血清を採取した。

間接ELISAアッセイでは7つの抗原性線状B細胞エピトープが確認されたが、そのうちの1つはASFV感染ブタの血清抗体と特異的かつ用量依存的に反応したが、健康なブタでは反応しなかったのに対し、任意の対照ペプチド（「RRRRRRRRRRRRRR」）は効果を示さなかった。 VirusImmu によって非抗原性であると予測されたエピトープ (「VLEEQSKIDPNF」) も、血清抗体に対する特異的結合を示さなかった。

これらの結果は、現実世界のシナリオにおける VirusImmu のアプリケーションの強力な例を示しています。

AI技術がワクチン開発を加速

科学技術の急速な発展に伴い、ディープマインド社が開発したアルファフォード2によるタンパク質構造予測の成功や、その後のタンパク質生成などの新技術など、AIは生物医学の分野で次々と新たな進歩を遂げています。医薬品の研究開発プロセスでは、AI テクノロジーはむしろツールとしての役割を果たします。

まず、AI はウイルスゲノムの分析と予測に使用できます。AI は、大量のウイルスゲノムデータに対してディープラーニングとパターン認識を実行することで、ウイルスの突然変異と進化の傾向を正確に予測でき、科学者がウイルスの重要なタンパク質標的を迅速に特定し、関連するワクチンを迅速に開発できるようになります。

第二に、AI はワクチン開発の薬剤スクリーニング段階で重要な役割を果たします。従来の薬剤スクリーニングプロセスは通常、時間がかかり、労力と不確実性が伴いますが、AI は大規模なシミュレーション実験やデータマイニングを通じて薬剤とウイルスの相互作用を迅速に評価し、潜在的に活性のある薬剤候補を選別し、ワクチンの研究開発を改善することができます。効率。

さらに、AI を使用してワクチン臨床試験の設計を最適化することもできます。AI は、大規模な実験データをシミュレートすることで、科学者が人体におけるワクチンの反応と効果を予測および評価し、起こり得る安全性の問題や副作用を事前に発見し、治験の設計を最適化するのに役立ちます。

市場の観点から見ると、多国籍製薬企業はAI技術に注目する傾向があります。 AIコンサルティング会社ディープ・ファーマ・インテリジェンスの統計によると、2022年12月時点で、世界中のAI製薬会社800社への投資総額は59億3,000万米ドルに達し、9年間で27倍に増加した。

では、ワクチンやその他の薬剤の研究開発において、AI技術は依然としてどのような課題に直面しているのでしょうか?復旦大学経営大学院情報管理・ビジネスインテリジェンス学科助教授の李文文氏によると、AIアルゴリズムの形成には学習するために膨大な量のデータが必要であり、医薬品研究開発の分野では、これらのデータには関連するデータが含まれているという。タンパク質の構造、アミノ酸配列のさまざまな文字列など。

現在、医薬品の研究開発における AI テクノロジーの難しさは、データの取得と蓄積にあり、臨床検査データは高価であること、製薬会社が十分なデータを共有していないこと、および基本的なラベル付きデータが不足していることなどが挙げられます。

ワクチン研究開発における新たなブレークスルー：北京のチームがウイルス抗原の免疫原性を予測する新しい方法であるVirusImmuを提案

2年前

情報

サイエンスのためのAI

バイオ医薬品

データセット: トレーニングとテストに関与する数百の抗原

トレーニングおよびテストのデータセットは、100 個の抗原 (ポジティブセット) と 100 個の非抗原 (ネガティブセット) で構成されます。

データセットのダウンロードアドレス:

https://github.com/zhangjbig/VirusImmu/tree/main/data

保護されていないタンパク質配列 (非抗原) は、ウイルスバイオインフォマティクスリソースセンターからランダムに選択されました。

最適なアンサンブルモデル VirusImmu を構築する

50 ラウンドのランダム化実験の平均 ROC 統計は、RF が最も強い予測力を持っていることを示しています。

RF の重みを決定すると、パフォーマンスが低下します。

結果は、VirusImmu が個々のテストセットモデルよりも優れていることを示しています。

タンパク質の配列長に影響されない VirusImmu は優れたパフォーマンスを発揮します

* 比較実験 1: VirusImmu と VaxiJen の性能比較

※比較実験2：VirusImmuとRF、kNNとXGBoostの性能比較

VirusImmu のパフォーマンスをさらに検証するために、研究者は 59 個の抗原と 54 個の非抗原を含む外部テストセットを独自に収集しました。

* 比較実験 3: VirusImmu、NetBCE、EpiDope の性能比較

※比較実験4：Virusimmuと他機種との堅牢性比較

VirusImmuの信頼性をさらに証明するために、研究者らは公開文献からSARS-CoV-2エピトープを選択し、VirusImmuの免疫原性予測能力を検証した。

VirusImmu はアフリカ豚コレラウイルス (ASFV) ペプチドワクチン候補の特定に役立ちます

ASFV血清IgG抗体への8つのエピトープの結合を確認するために、研究者らはASFVに感染したブタ5頭と健康なブタ5頭から混合血清を採取した。

これらの結果は、現実世界のシナリオにおける VirusImmu のアプリケーションの強力な例を示しています。

Command Palette

ワクチン研究開発における新たなブレークスルー：北京のチームがウイルス抗原の免疫原性を予測する新しい方法であるVirusImmuを提案

データセット: トレーニングとテストに関与する数百の抗原

最適なアンサンブル モデル VirusImmu を構築する

タンパク質の配列長に影響されない VirusImmu は優れたパフォーマンスを発揮します

VirusImmu はアフリカ豚コレラウイルス (ASFV) ペプチドワクチン候補の特定に役立ちます

AI技術がワクチン開発を加速

Command Palette

ワクチン研究開発における新たなブレークスルー：北京のチームがウイルス抗原の免疫原性を予測する新しい方法であるVirusImmuを提案

データセット: トレーニングとテストに関与する数百の抗原

最適なアンサンブル モデル VirusImmu を構築する

タンパク質の配列長に影響されない VirusImmu は優れたパフォーマンスを発揮します

VirusImmu はアフリカ豚コレラウイルス (ASFV) ペプチドワクチン候補の特定に役立ちます

AI技術がワクチン開発を加速

関連 ニュース

DeepSeek Engram にヒントを得たゲノム基本モデルの「外部脳」である Gengram は、最大 22.61 TP3T のパフォーマンス向上を達成しました。

971 TP3T の精度で！プリンストン大学らは、MOF が合成可能かどうかを効率的に予測する MOFSeq-LMM を提案しました。

高度に選択的な基質設計を実現し、MIT とハーバード大学が協力して、生成 AI を使用して新しいプロテアーゼ切断パターンを発見します。

カーネギー研究所の学際的なチームは、406 個のサンプルに基づくランダム フォレスト モデルを使用して、33 億年前に遡る生命の証拠を捕らえることに成功しました。

ドイツの研究チームは、タンパク質配列、三次元構造、機能特性に関するデータを統合し、メトリック学習に基づいてヒト E3 ユビキチンリガーゼの「パノラマビュー」を構築しました。

スタンフォード大学、北京大学、UCL、カリフォルニア大学バークレー校は協力し、CNN を使用して 810,000 個のクエーサーから 7 つの希少なレンズ状サンプルを正確に識別しました。

画像による地理位置情報の画期的な進歩！メイン大学、Google、OpenAIなどがLocDiffフレームワークを提案し、グリッドや参照ライブラリを必要とせずに正確なグローバル測位を実現しました。

ケンブリッジ大学は血液細胞画像分類装置を開発しました。その拡散モデルは白血病の検出に役立ち、臨床専門家の能力を上回っています。

NVIDIA と他の企業は、18,000 年分の気候データを生成し、単一ステップの計算で長期的な天気予報を可能にする長距離蒸留を提案しました。

Command Palette

ワクチン研究開発における新たなブレークスルー：北京のチームがウイルス抗原の免疫原性を予測する新しい方法であるVirusImmuを提案

データセット: トレーニングとテストに関与する数百の抗原

最適なアンサンブル モデル VirusImmu を構築する

タンパク質の配列長に影響されない VirusImmu は優れたパフォーマンスを発揮します

VirusImmu はアフリカ豚コレラウイルス (ASFV) ペプチドワクチン候補の特定に役立ちます

AI技術がワクチン開発を加速

関連 ニュース

DeepSeek Engram にヒントを得たゲノム基本モデルの「外部脳」である Gengram は、最大 22.61 TP3T のパフォーマンス向上を達成しました。

971 TP3T の精度で！プリンストン大学らは、MOF が合成可能かどうかを効率的に予測する MOFSeq-LMM を提案しました。

高度に選択的な基質設計を実現し、MIT とハーバード大学が協力して、生成 AI を使用して新しいプロテアーゼ切断パターンを発見します。

カーネギー研究所の学際的なチームは、406 個のサンプルに基づくランダム フォレスト モデルを使用して、33 億年前に遡る生命の証拠を捕らえることに成功しました。

ドイツの研究チームは、タンパク質配列、三次元構造、機能特性に関するデータを統合し、メトリック学習に基づいてヒト E3 ユビキチンリガーゼの「パノラマビュー」を構築しました。

スタンフォード大学、北京大学、UCL、カリフォルニア大学バークレー校は協力し、CNN を使用して 810,000 個のクエーサーから 7 つの希少なレンズ状サンプルを正確に識別しました。

画像による地理位置情報の画期的な進歩！メイン大学、Google、OpenAIなどがLocDiffフレームワークを提案し、グリッドや参照ライブラリを必要とせずに正確なグローバル測位を実現しました。

ケンブリッジ大学は血液細胞画像分類装置を開発しました。その拡散モデルは白血病の検出に役立ち、臨床専門家の能力を上回っています。

NVIDIA と他の企業は、18,000 年分の気候データを生成し、単一ステップの計算で長期的な天気予報を可能にする長距離蒸留を提案しました。

関連 ニュース

DeepSeek Engram にヒントを得たゲノム基本モデルの「外部脳」である Gengram は、最大 22.61 TP3T のパフォーマンス向上を達成しました。

971 TP3T の精度で！プリンストン大学らは、MOF が合成可能かどうかを効率的に予測する MOFSeq-LMM を提案しました。

高度に選択的な基質設計を実現し、MIT とハーバード大学が協力して、生成 AI を使用して新しいプロテアーゼ切断パターンを発見します。

カーネギー研究所の学際的なチームは、406 個のサンプルに基づくランダム フォレスト モデルを使用して、33 億年前に遡る生命の証拠を捕らえることに成功しました。

ドイツの研究チームは、タンパク質配列、三次元構造、機能特性に関するデータを統合し、メトリック学習に基づいてヒト E3 ユビキチンリガーゼの「パノラマビュー」を構築しました。

スタンフォード大学、北京大学、UCL、カリフォルニア大学バークレー校は協力し、CNN を使用して 810,000 個のクエーサーから 7 つの希少なレンズ状サンプルを正確に識別しました。

画像による地理位置情報の画期的な進歩！メイン大学、Google、OpenAIなどがLocDiffフレームワークを提案し、グリッドや参照ライブラリを必要とせずに正確なグローバル測位を実現しました。

ケンブリッジ大学は血液細胞画像分類装置を開発しました。その拡散モデルは白血病の検出に役立ち、臨床専門家の能力を上回っています。

NVIDIA と他の企業は、18,000 年分の気候データを生成し、単一ステップの計算で長期的な天気予報を可能にする長距離蒸留を提案しました。

関連 ニュース

DeepSeek Engram にヒントを得たゲノム基本モデルの「外部脳」である Gengram は、最大 22.61 TP3T のパフォーマンス向上を達成しました。

971 TP3T の精度で！プリンストン大学らは、MOF が合成可能かどうかを効率的に予測する MOFSeq-LMM を提案しました。

高度に選択的な基質設計を実現し、MIT とハーバード大学が協力して、生成 AI を使用して新しいプロテアーゼ切断パターンを発見します。

カーネギー研究所の学際的なチームは、406 個のサンプルに基づくランダム フォレスト モデルを使用して、33 億年前に遡る生命の証拠を捕らえることに成功しました。

ドイツの研究チームは、タンパク質配列、三次元構造、機能特性に関するデータを統合し、メトリック学習に基づいてヒト E3 ユビキチンリガーゼの「パノラマビュー」を構築しました。

スタンフォード大学、北京大学、UCL、カリフォルニア大学バークレー校は協力し、CNN を使用して 810,000 個のクエーサーから 7 つの希少なレンズ状サンプルを正確に識別しました。

画像による地理位置情報の画期的な進歩！メイン大学、Google、OpenAIなどがLocDiffフレームワークを提案し、グリッドや参照ライブラリを必要とせずに正確なグローバル測位を実現しました。

ケンブリッジ大学は血液細胞画像分類装置を開発しました。その拡散モデルは白血病の検出に役立ち、臨床専門家の能力を上回っています。

NVIDIA と他の企業は、18,000 年分の気候データを生成し、単一ステップの計算で長期的な天気予報を可能にする長距離蒸留を提案しました。

最適なアンサンブルモデル VirusImmu を構築する

最適なアンサンブルモデル VirusImmu を構築する

関連ニュース

カーネギー研究所の学際的なチームは、406 個のサンプルに基づくランダムフォレストモデルを使用して、33 億年前に遡る生命の証拠を捕らえることに成功しました。

最適なアンサンブルモデル VirusImmu を構築する

関連ニュース

カーネギー研究所の学際的なチームは、406 個のサンプルに基づくランダムフォレストモデルを使用して、33 億年前に遡る生命の証拠を捕らえることに成功しました。

関連ニュース

カーネギー研究所の学際的なチームは、406 個のサンプルに基づくランダムフォレストモデルを使用して、33 億年前に遡る生命の証拠を捕らえることに成功しました。

関連ニュース

カーネギー研究所の学際的なチームは、406 個のサンプルに基づくランダムフォレストモデルを使用して、33 億年前に遡る生命の証拠を捕らえることに成功しました。