疫苗研发新突破:北航团队提出病毒抗原免疫原性预测新方法 VirusImmu

特色图像

传染病是严重危害人类健康和生命的一类重大疾病。在迄今发现的 4,000 多种病毒中,有 100 多种可直接威胁人类的健康和生命。更可怕的是,新的病原还在不断被发现。据媒体报道,近 20 年世界上发现的 32 种新传染病,其中半数左右已经在我国出现。

因此,疫苗的开发显得尤为重要。在疫苗发开发的漫长过程中,首要任务就是识别保护性免疫原。机器学习 (ML) 方法在分析微生物蛋白质组等大数据方面非常高效,并且可以显著降低开发新型候选疫苗的实验工作成本。

来自北京航空航天大学的李静等人,开发了一种用于病毒抗原免疫原性预测的机器学习集成方法 (Viruslmmu),在预测病毒蛋白片段的免疫原性方面表现出巨大的潜力,为疫苗开发人员提供更全面的工具。相关内容发表于 bioRxiv 。

论文地址:
https://www.biorxiv.org/content/10.1101/2023.11.23.568426v1
关注公众号,回复「免疫」下载论文

数据集:百种抗原参与训练、测试

训练和测试数据集由 100 种抗原(阳性集)和 100 种非抗原(阴性集)组成。

数据集下载地址:

https://github.com/zhangjbig/VirusImmu/tree/main/data

收集数据集、构建模型和特征选择的过程

保护抗原为从文献中筛选的经过验证的蛋白抗原,对应的蛋白序列来自 UniProt (Universal Protein) 和 NCBI (美国国家生物技术信息中心),都是优先选择具有完整片段的蛋白质。
注:UniProt 是信息最丰富、资源最广的蛋白质数据库。

未保护的蛋白序列(非抗原)是从病毒生物信息学资源中心随机选取。

科研人员通过 BLAST (Basic Local Alignment Search Tool) 确认非抗原与抗原没有序列同一性,采用随机抽样交叉验证策略,从 20% 的正负数据集中获得测试集。进行了 50 次随机分组。
注:BLAST 是生物大分子序列比对搜索工具。

外部数据集是科研人员独立构建的,由 59 个抗原和 54 个非抗原组成,其中抗原序列是从 UniProt 和 Protegen 数据库中手动整理的,非抗原序列是以相同的训练方式从 UniProt 中随机选择的。

构建最佳集成模型 VirusImmu

过去十年,预测蛋白质抗原免疫原性的方法主要分为两大类:过滤和分类。分类预测最具代表性的方法是 VaxiJen,它提出了一种用于预测保护性细菌抗原的方法。

但 VaxiJen 重点关注细菌免疫原性预测,为了克服 VaxiJen 的限制性,来自北京航空航天大学的科研人员提出了一种用于病毒免疫原性预测的集成机器学习方法 VirusImmu 。

与 VaxiJen 仅使用单一传统回归算法或者简单地基于多数投票不同,VirusImmu 采用软投票方法,通过随机采样交叉验证策略来评估 8 种机器学习模型在预测抗原免疫原性方面的性能。

科研人员总共进行了 50 轮随机化实验,每轮将数据集按 8:2 的比例分为训练集和测试集。应用训练集来训练每个模型,然后评估训练后的模型在测试集上的免疫原性预测。

8 种常用的机器学习模型的平均 ROC 统计数据

50 轮随机化实验的平均 ROC 统计数据表明 RF 具有最强大的预测能力。

为了提高模型对免疫原性的预测能力,科研人员基于前 3 个模型(RF 、 XGBoost 和 kNN)构建了一个软投票集成分类器 (VirusImmu),对 RF 、 XGBoost 和 kNN 的预测进行加权并合并以获得加权概率之和。

为了确定 RF 、 XGBoost 和 kNN 的权重,研究人员枚举了每个权重的所有可能(总共 232 个),权重以 0.05 的增量步长从 0 增加到 1,并使用 ROC 分析评估模型在不同权重下的性能。

结果表明,VirusImmu 的性能优于每个个体测试集模型。

不受蛋白质序列长度影响,VirusImmu 性能超强

* 对比实验一:VirusImmu 与 VaxiJen 的性能对比

VaxiJen 是利用蛋白质序列的理化特性来预测免疫原性的少数方法之一。与 VirusImmu 不同,Vaxijen 采用了单一的传统回归算法或者是多数投票。因此,研究人员将 VirusImmu 的性能与 VaxiJen 进行了比较。

在测试集中,VirusImmu 的 AUC(Area Under the Curve, ROC 曲线下的面积)为 0.782,VaxiJen 的 AUC=0.75,平均 ROC 曲线表明 VirusImmu 优于 VaxiJen(置信区间为 95%)。

* 对比实验二:VirusImmu 与 RF 、 kNN 和 XGBoost 的性能对比

为了进一步验证 VirusImmu 的性能,科研人员独立收集了包含 59 个抗原和 54 个非抗原的外部测试集。

ROC 曲线显示,VirusImmu (AUC=0.712) 优于 RF (AUC=0.676) 和 kNN (AUC=0.699),性能与 XGBoost (AUC=0.717) 相似。 VaxiJen 在外部测试集上的表现最差 (AUC=0.609) 。

简而言之,VirusImmu 在测试集和外部测试集上,相较 8 种常用的 ML 预测方法和 VaxiJen,均产生了更稳定的蛋白质免疫原性预测。

* 对比实验三:VirusImmu 和 NetBCE 和 EpiDope 的性能对比

科研人员还将 VirusImmu 的性能与最近发布的两种预测方法 NetBCE 和 EpiDope 的性能进行了比较。 NetBCE 仅能够预测小于 24 个氨基酸的蛋白质序列的免疫原性,VirusImmu 则能够兼顾长、短蛋白质序列片段。 EpiDope 虽然结合了语言模型嵌入 (ELMo) 深度神经网络 (DNN) 和长短期记忆 (LSTM) DNN,AUC 达到 0.667,但表现也比 VirusImmu (AUC=0.712) 差。

VirusImmu 与其他模型之间的性能比较

* 对比实验四:Virusimmu 和其他模型的稳健性比较

为了测试所有模型的稳健性,科研人员进行了 50 轮随机抽样,每轮使用外部测试集中约 30% 的抗原和非抗原样本。 VirusImmu 在 AUC 和 F1 Score 方面取得了比 VaxiJen 更好的性能。
注:F1 Score 是模型的精确率 (Precision) 和召回率 (Recall) 的调和平均值。

由于模型的预测能力可能会受到蛋白质序列长度的影响,研究人员以 200 bp 的增量步长的蛋白质序列长度对外部测试集进行分组,共分为五组,然后进行 50 轮随机采样。

XGBoost 和 Virusimmu 在外部验证数据中都取得了良好的性能(前两名),XGBoost 的 AUC 略好于 Virusimmu,但 F1 Score 较差。 XGBoost 对小于 200 bp 和 600-800 bp 蛋白的处理效果也比 Virusimmu 差。

由于大多数表位是长度小于 200 的蛋白片段,因此 Virusimmu 比 XGBoost 具有更好的应用场景。

总体来看,Viruslmmu 不基于序列比较,排除了蛋白质序列长度的影响,与同类预测工具相比,它适用于蛋白质和多肽的预测,具有更高的准确性和更大的通用性。

为了进一步证明 VirusImmu 的可靠性,科研人员选取已发表文献中的 SARS-CoV-2 表位来验证 VirusImmu 的免疫原性预测能力。

结果显示,4 篇文献涉及的共 15 个表位中,有 14 个被 VirusImmu 预测为抗原,验证了 VirusImmu 对于病毒蛋白免疫原性预测的良好性能。

VirusImmu 有助于识别非洲猪瘟病毒 (ASFV) 候选肽疫苗

由于非洲猪瘟病毒暂无有效的疫苗或治疗方法,需要鉴定保护性抗原。研究发现,对病毒结构完整性至关重要的 ASFV pp220 多蛋白含有可以诱导猪产生强烈免疫反应的表位,这表明其有望应用于疫苗开发。

为了鉴定抗原表位,科研人员使用 17 种最流行的方法,包括 BCPred 、免疫表位数据库 (IEDB) 服务器,从 pp220 蛋白中预测了 1,376 个 B 细胞线性表位候选。

科研人员采用严格的标准过滤出具有抗原性的表位,根据 VaxiJen≤1.3 的预测结果,剩下 29 个表位,其中 12 个表位被归类为非过敏原和非毒素。 VirusImmu 预测 12 个表位中的 8 个具有抗原性。

抗原 B 细胞表位与抗体结合的测量

为了确认 8 个表位与 ASFV 血清 IgG 抗体的结合,科研人员分别收集了 5 头 ASFV 感染猪和 5 头健康猪的混合血清。

间接 ELISA 测定证实了 7 个抗原线性 B 细胞表位,但其中一个与 ASFV 感染猪的血清抗体发生特异性且剂量依赖性反应,但在健康猪中则不然,而任意对照肽 (‘RRRRRRRRRRRRRR’) 没有效果。 VirusImmu 预测为非抗原性的表位 (‘VLEEQSKIDPNF’) 也没有表现出与血清抗体的特异性结合。

这些结果为 VirusImmu 在实际场景中的应用提供了有力的示例。

AI 技术加速疫苗研发

随着科技的飞速发展,AI 在生物医药领域接连有新的突破,其中就包括 Deepmind  开发的 Alphaford 2 成功预测蛋白质结构,以及后来的生成式蛋白质等新技术。而药物研发过程中,AI 技术扮演的角色更多的是一种工具。

Alphaford 2 架构

首先,AI 可用于病毒基因组的分析和预测。通过对大量的病毒基因组数据进行深度学习和模式识别,AI 能够准确预测病毒的变异和演化趋势,有助于科学家们快速确定病毒的关键蛋白质靶点,进而快速开发相关疫苗。

其次,AI 在疫苗研发的药物筛选阶段发挥着重要作用。传统的药物筛选过程通常费时费力且存在不确定性,而 AI 通过大规模的模拟实验和数据挖掘,能够快速评估药物与病毒之间的相互作用,筛选出具有潜在活性的候选药物,提高疫苗研发的效率。

此外,AI 还可用于优化疫苗临床试验的设计。通过模拟大规模的实验数据,AI 能够帮助科学家们预测和评估疫苗在人体内的反应和效果,提前发现可能的安全问题和副作用,并优化试验的设计方案。

市场方面,跨国药企对 AI 技术的重视程度都有提高的倾向。据 AI 咨询机构 Deep Pharma Intelligence  统计,截至 2022 年 12 月,全球 800 家 AI 制药公司的总投资额达到 59.3 亿美元,9 年间增长了 27 倍。

那么,AI 技术在疫苗等药物研发环节,还有哪些挑战?据复旦大学管理学院信息管理与商业智能系助理教授李文文介绍,AI 算法的形成需要庞大的数据去学习,而在药物研发领域,这些数据包括了蛋白质的相关结构、不同串的氨基酸序列等。

目前,AI 技术在药物研发上的难点在于数据获取和积累,实验室的数据昂贵,而药企的数据共享程度不够,以及基础的、带标记的数据稀缺等,都是受限制的地方。