上海交大余祥课题组发布可迁移深度学习模型,鉴定多类型 RNA 修饰、显著减少计算成本

特色图像

2021 年,因中国科学院院士高福大声疾呼,mRNA 疫苗一夜之间名声鹊起,成为人们在新型冠状病毒肆虐期间的希望。如今,那段特殊过往已成历史,但 mRNA 疫苗背后的 RNA 修饰却仍在以日新月异的速度向前发展。

所谓 RNA 修饰,是一类重要转录后调控方式,能够广泛参与各种 RNA 转录后的加工代谢途径。

RNA 修饰之所以值得被关注,还因其在真核生物生长发育过程中发挥了至关重要的生物学功能。例如,近年研究发现,N⁶-甲基腺苷 (m⁶A) 在哺乳动物胚胎干细胞中的去稳定化作用与多种疾病相关,5-甲基胞嘧啶 (m⁵C) 与水稻对高温的耐受性有关。

不过,RNA 具有多种类型的修饰,迄今为止,自然界 RNA 中被发现的修饰类型已超过 160 种。此前,由牛津纳米孔科技有限公司 (Oxford Nanopore Technologies, ONT) 开发的纳米孔直接 RNA 测序 (Direct RNA Sequencing, DRS) 技术,结合深度学习方法,可以实现单个碱基的修饰识别,但该方法难以在单个样本中同时检测多种修饰类型。

针对以上问题,上海交通大学生命科学技术学院长聘教轨副教授余祥课题组,联合上海辰山植物园杨俊 / 王红霞团队,在「Nature Communications」发表了题为「Transfer learning enables identification of multiple types of RNA modifications using nanopore direct RNA sequencing」的研究论文,开发了可迁移深度学习模型 TandemMod,实现了在 DRS 中鉴定多种类型的 RNA 修饰。

研究亮点:

* 在保证同等性能的条件下,显著减少训练集数据量和模型训练时间等计算成本

* TandemMod 为动植物和微生物体内,多种类型的 RNA 修饰位点鉴定及表观转录组研究,提供重要技术支撑

* TandemMod 还可用于检测 RNA 疫苗等人工修饰的 RNA

论文地址:

https://www.nature.com/articles/s41467-024-48437-4
开源项目「awesome-ai4s」汇集了百余篇 AI4S 论文解读,并提供海量数据集与工具:

https://github.com/hyperai/awesome-ai4s

数据集:多重数据集针对性训练

为了训练、评估 TandemMod 模型性能,研究团队采用了多组数据集进行实验。

首先,研究团队利用 Nookaew 实验室生成的体外转录数据集 ELIGOS,计算了 6 种修饰碱基 (m¹A 、 m⁶A 、 m⁵C 、 hm⁵C 、 m⁷G 、Ψ) 的 5 个基级特征(均值、中位数、标准差、信号长度和碱基质量),并与未修饰的碱基进行了比较。

其次,研究团队选择基于真核 mRNA 中最常见的两种修饰 m⁵C 和 m⁶A,研究 TandemMod 的性能。研究人员在 Curlcake 数据集上训练了 TandemMod m⁵C 模型,该数据集来自包含所有可能的 5-mers 的体外转录序列,并按 4:1 的比例分为训练集和测试集。

利用水稻 cDNA 文库体外转录带有 m¹A 、 m⁶A 、 m⁵C 标签的转录本、并通过 DRS 创建体外表观转录组的示意图

同时,为解决体外合成序列转录的 RNA 无法覆盖自然序列全部范围的问题,研究团队对含有 T7 启动子的水稻 cDNA 文库进行体外转录,得到了具备不同修饰标签的数千个转录本,加 polyA 尾后通过 DRS 构建了 4 个训练集 (m¹A 、 m⁶A 、 m⁵C 和未修饰碱基),称为体外表观转录组数据集 (IVET) 。

模型架构:一种深度学习框架

以此为基础,研究团队以每 5 个碱基分配到的电信号及其统计特征作为输入,训练可同时检测多种 RNA 修饰类型的迁移学习模型 TandemMod 。

基于 DRS 数据搭建 TandemMod 深度学习框架的示意图

如上图所示,TandemMod 由数据预处理 (Data preprocessing) 、模型预训练 (Model pretraining) 和迁移学习 (Transfer learning) 组成。

其中,模型预训练由 4 个主要组件构成:

* 一维卷积神经网络 (1D-CNN),用于提取原始电流强度信号的局部特征;

* 双向长短期记忆模块 (Bi-LSTM),用于捕获相邻信号之间的长期相关性,提升更长过程中上下文的理解能力;

* 注意力机制 (Attention),用于加权每个特征在不同时间不长的重要性,提升模型对于重要信号的捕捉能力;

* 全连接层 (full-connected layers) 的分类器,负责根据所有特征的组合信息进行预测。

此外,为了验证迁移学习能否应用于 DRS 数据,以实现对多种类型 RNA 修饰的检测,研究人员在 IVET m5C 数据集上训练了 TandemMod,得到了一个预训练模型 (Pretrained model) 。在 TandemMod 模型中,顶层充当特征提取器,底层充当分类器。研究人员冻结 (froze) 了预训练模型的顶层,并在 ELIGOS 训练集 (hm5C 、 m7G 、Ψ 和 I) 上重新训练了底层,以尽量减少分类误差。

迁移学习检测 m⁷G 、 hm⁵C 、Ψ和 I 多种类型 RNA 修饰位点的性能评估曲线

经过 2 个周期,所有模型都达到了高准确度,hm⁵C 、 m⁷G 、Ψ 和 I 的 ROC-AUC 分别达到了 0.98 、 0.95 、 0.96 和 0.97 。如上图 a 、 b 、 c 、 d 所示。

实验结果:TandemMod 显著减少训练集数据量和模型训练时间

实验阶段,研究团队将 TandemMod 模型与经典机器学习算法进行了比较来评估其性能,比较对象分别为 XGBoost 、 support vector machine (SVM) 和 k-nearest neighbor (KNN) 。在 Curlcake 测试数据集 m⁶A 识别的情况下,TandemMod 以 0.90 的准确率优于其他算法。同样,对于 m⁵C 的识别,TandemMod 准确率达到 0.95,这一比较突出了 TandemMod 在使用 DRS 数据识别修改方面的有效性。

在识别体内不同修饰率水平的样本方面,TandemMod 相较 tombo 和 xPore 也显示出了更好的优越性。这表明 TandemMod 不需要阴性对照样本就可以准确预测不同修饰率的样本。

TandemMod 与其他基于 DRS 的主流算法预测 m⁶A 修饰位点的比较

此外,研究团队还将 TandemMod m⁶A 模型与 tombo 、 nanom6A 和 m6Anet 进行了比较,如上图所示。

在 ELIGOS rash (R-A 或 G, H-A, 或 C 或 U) 基序上,TandemMod 、 nanom6A 和 tombo 的 ROC-AUC 分别为 0.96 、 0.88 和 0.52 。在 ELIGOS DRACH (D-A, G,或 U) 基序上,TandemMod 、 m6Anet 和 tombo 的 ROC-AUC 分别为 0.95 、 0.71 和 0.64 。

这些结果表明,使用体外 DRS 数据集进行训练,TandemMod 在现有工具中提供了最准确的读取水平预测。

研究团队验证了 TandemMod m⁵C 模型在 m⁶A 检测中,迁移学习的分类性能、所需训练数据和计算资源利用率,并与标准实例的 TandemMod m⁶A 模型进行了比较。结果表明,迁移学习可在保证同等性能的条件下,显著减少训练集数据量和模型训练时间等成本。

通过 TandemMod 绘制高盐胁迫下水稻 m⁶A 、 m⁵C 和Ψ的表观修饰图谱

最后,研究团队检验了 TandemMod 模型推广到新物种进行 DRS 数据测序的能力,使用人类细胞系(2 个修饰酶敲除样本和 5 个野生型样本)进一步验证了 TandemMod 的可靠性。同时,研究团队还通过 TandemMod 绘制了水稻幼苗在高盐胁迫下 m⁶A 、 m⁵C 和 Ψ 的表观修饰图谱,并揭示了 mRNA 中 m⁶A 和 m⁵C 的共修饰及其在高盐环境下的修饰率变化。如上图所示。

RNA 修饰开启生命探索的新大门

古往今来,人们对于生命的探索从未停止。而在 RNA 世界假说提出后,RNA 作为生命起源的论调无疑成为当前最让人信服的答案之一。自 1960 年第一个 RNA 修饰被发现以来,其就早已成为科研界探索的重中之重,在近年的研究中仍保持着极高的关注度。

除了本论文余祥课题组以及杨俊 / 王红霞团队,以及文中所提到的 ONT 公司外,还有更多的团队和企业也在进行 RNA 修饰研究。

例如,在 2021 年,西交利物浦大学孟佳教授团队在「Nature Communications」期刊上发表了题为「Attention-based multi-label neural networks for integratedprediction and interpretation of twelve widely occurring RNA modifications」的文章。

论文地址:https://www.nature.com/articles/s41467-021-24313-3

文中提到了一种基于注意力机制的多标签深度学习框架的模型 MultiRM,不仅可以同时预测 12 个广泛存在的转录组位点,而且对预测过程中的关键序列进行了提取分析,揭示了不同类型的 RNA 修饰之间有很强的关联,有助于更好的综合分析和理解基于序列的 RNA 修饰机制。

无独有偶,「Nature Biotechnology」于 2021 年收录的一篇名为「Identification of differential RNA modifications from nanopore direct RNA sequencing with xPore」的论文中,研究团队利用 xPore 从 Direct RNA-seq 数据中高精度鉴定 RNA 修饰,并从单次高通量实验中分析差异修饰和表达。
论文地址:https://www.nature.com/articles/s41587-021-00949-w

这些研究正在帮助我们进一步推开 RNA 世界的大门,从而让我们进一步探索「生命的真谛」。虽然目前各项研究的进展仍有大量的瓶颈需要突破,但「先驱者」不断地挑战早已让 RNA 研究的大门越发敞亮。

参考资料:
1. https://news.sjtu.edu.cn/jdzh/2