HyperAI
Back to Headlines

New Algorithm miniQuant Tackles Gene Isoform Quantification Challenges

9 days ago

经过近二十年的技术积累,RNA 测序领域迎来了一项重大突破。近日,美国密歇根大学的区健辉(Kin Fai Au)教授团队在《自然生物技术》(Nature Biotechnology)杂志上发表了一篇论文,介绍了一种名为 miniQuant 的新算法,有效解决了困扰科学界十多年的基因异构体定量难题。 区健辉在接受 Deeptech 采访时指出:“这个问题已经讨论了十几年,但一直没有一个严谨的数学和数据科学定义。” miniQuant 不仅提供了坚实的理论基础,还开发出了实用的软件工具,为 RNA 测序数据分析设立了新的标准。 传统观念认为一个基因通常对应一个蛋白质,但实际上,基因通过可变剪接(alternative splicing)可以生成多种称为基因异构体的 mRNA 版本。这些异构体显著增加了生命的复杂性,但其表达水平的精确定量一直是生物信息学领域的挑战。当前主流的测序技术分为二代和三代。二代测序技术如 Illumina 平台,读长较短,通常为 150 个碱基对,但通量高、成本低;而三代测序技术如 PacBio 和 Oxford Nanopore Technologies(ONT)平台,读长可达数万个碱基对,能够覆盖完整的 RNA 分子,但通量相对较低、成本较高。 面对这一两难选择,研究团队提出了 K 值(K-value)概念——这是一种基于广义条件数(generalized condition number)的基因特异性指标,用于量化基因异构体定量过程中的不确定性。具体来说,K 值被定义为读段-异构体比对概率矩阵 A 的最大和最小正奇异值的比值。研究团队通过严格的数学推导证明,在观测误差较小的情况下,相对定量误差的上界与 K 值呈正相关,K 值较高的基因更容易在异构体定量中出现误差。 为了验证 K 值理论的有效性,研究团队对超过 17,000 个来自 GTEx、TCGA 和 ENCODE 联盟的公共数据集进行了大规模分析。结果显示,当 K 值从 1 增加到 25 及以上时,GTEx、TCGA 和 ENCODE 数据集中平均绝对相对差异(MARD,Mean Absolute Relative Difference)的中位数分别增加了 0.1830、0.1559 和 0.1721。更重要的是,这种相关性在不同的生物学背景、样本资源、测序平台和数据质量条件下均保持一致,证明了 K 值作为一个内在定量误差指标的稳健性。 基于 K 值理论,研究团队开发了 miniQuant 软件,该软件能够智能地整合长读段和短读段的优势。miniQuant 包括两种模式:miniQuant-L 仅使用长读段进行定量,而 miniQuant-H 是一种创新的混合模式,能够结合长读段和短读段数据。区健辉解释说:“K 值可以帮助研究人员在数据收集和分析之前评估基因异构体定量的可靠性,从而指导他们选择合适的测序技术。” miniQuant-H 使用机器学习方法,根据基因结构特征(包括 K 值)和数据特征,为每个基因群体确定最佳的长短读段权重组合。对于结构复杂的基因(K 值高),算法倾向于使用长读段来减少解卷积误差;而对于表达量较低的基因,则增加短读段的权重以降低采样误差。例如,对于 K 值高(82.26)且相对高表达的基因 VPS13D,miniQuant-H 分配了 0.75 的长读段权重;而对于 K 值低(5.37)且表达量较低的基因 TCP11L2,最佳长读段权重则仅为 0.25。 在基准测试中,miniQuant-H 显示出显著的优势。模拟数据显示,在多种测序深度组合下,miniQuant-H 的平均中位数 MARD 为 0.1249,显著优于现有的短读段工具(0.1505-0.3555)和长读段工具(0.2515-0.9394)。在真实数据验证方面,研究团队使用了 LRGASP 联盟提供的合成加标转录本数据。对于单异构体的 ERCC 加标转录本,长读段工具由于采样误差表现不如短读段工具,而 miniQuant-H 达到了与短读段工具相当的精度。对于结构复杂的 SIRV 加标转录本,长读段工具表现更佳,miniQuant-H 则达到了最低的平均误差。 研究团队进一步将 miniQuant 应用于人类胚胎干细胞(ESC)分化研究,揭示了干细胞分化过程中异构体转换事件。通过对 ESC 分化为咽内胚层(PE)和原始生殖细胞样细胞(PGC)的过程进行分析,研究人员成功鉴定了 151 个(ESC 到 PE)和 161 个(ESC 到 PGC)发生异构体转换的基因。例如,尽管 MAT2B 基因的整体表达水平保持稳定,但其异构体使用模式发生了显著变化,这可能影响细胞的凋亡调控能力。这些重要的异构体转换事件大多发生在高表达基因中(第 82-99 百分位,TPM 从 30.60 到 1,077.09)。在典型测序深度下(如 600 万条 cDNA-ONT 读段),当这些基因的表达水平被下采样至第 75 百分位丰度时,长读段工具的定量结果因采样误差而变得不可靠。而 miniQuant-H 通过整合短读段数据,能够在更大范围的基因表达水平内稳定检测异构体转换模式。 与现有的整合方法相比,miniQuant 显示出明显的技术优势。例如,StringTieMix 采用了相对简单的读段分配策略,将每个短读段分配给最多长读段支持的兼容异构体,其在模拟数据中的表现有限。而 miniQuant-H 通过复杂的机器学习模型和联合似然函数,实现了更精确和自适应的数据整合。 这项研究在两个方面推动了 RNA 测序技术的发展:一是理论层面,建立了评估基因异构体定量可靠性的数学框架;二是在实践层面,提供了能够根据具体数据特征和基因结构自适应选择最优策略的软件工具。区健辉总结道:“这是首次以严谨的科学方法告诉研究人员哪些基因复杂、哪些基因简单,以及何时应选择不同的测序技术。以前大家只能凭借感觉和经验来判断,现在我们提供了科学的标准。” 审稿人也高度评价了这项研究,称其“回答了领域内长期悬而未决的问题”。目前,miniQuant 软件已在 GitHub 平台上开源发布,并提供了针对不同测序平台和深度组合的预训练模型,包括 cDNA-PacBio、cDNA-ONT 和 dRNA-ONT 等协议。 随着长读段测序技术成本的持续下降和精度的不断提升,这种智能整合长短读段优势的方法有望为转录组研究提供更加精确和经济的解决方案,推动基因异构体功能研究向更深层次发展。相关论文题目为《基于 miniQuant 的基因异构体定量优化方法》,作者包括密歇根大学的博士研究生李浩然、王定杰、高琦、谭普文、王运浩和蔡晓羽博士,通讯作者是区健辉教授。

Related Links