HyperAI超神经
Back to Headlines

新算法miniQuant破解基因异构体定量难题,显著提升RNA测序精度

2 days ago

科学家最新提出了一种名为 miniQuant 的新算法,专门用于解决基因异构体量化难题。在多项目基准测试中,miniQuant-H(基于 miniQuant 的改进版)表现出显著优势。在模拟数据测试中,该算法在多种测序深度组合下的平均绝对相对误差 MARD 仅为 0.1249,优于现有的短读段测序工具(0.1505-0.3555)和长读段测序工具(0.2515-0.9394)。对于 ERCC 标准转录本而言,由于不存在拼接错误问题,长读段工具在采样错误上的表现不及短读段工具普遍可靠,而 miniQuant-H 达到了与短读段工具相仿的准确度。对于结构更复杂的 SIRV 标准转录本,则长读段工具的表现更好,但是 miniQuant-H 达到了最低的平均误差水平。 研究团队进一步将 miniQuant 应用到人类胚胎干细胞(ESC)分化研究中,成功揭示了干细跑向咽层(PE)和原始生殖细胞(PGC)分化过程中的异构体现象,鉴定了 151 个(ESC 到 PE)和 161 个(ESC 到 PGC)具有明显变化的基因。例如,MAT2B 基因虽然整体表达水平保持稳定,但其异构体在模型构建时却发生了显著改变,这种变化可能会影响细胞的繁殖调控能力。值得注意的是,许多基因表达的变化在高表达基因群体中最显著,如在第 82-99 百分位内, TPM 从 30.60 到 1,077.09 不等,如果仅依赖长读段测序,在标准测序深度下,这些基因的表达水平往往会因为采样偏差而变得不可靠。相比之下,miniQuant-H 通过整合短读段数据,能够在更大范围内稳定检测异构体现在象。 miniQuant 算法的核心技术创新在于使用复杂机器学习模型和联合概率函数来实现数据整合。传统的整合方法通常只采用简单的片段分配策略,将每个短读段分配给最长读段支持的兼容异构体,这在模拟数据集中的表现有限。而 miniQuant-H 摆脱了这一限制,通过对数据特征和基因结构自适应选择最优整合方案,实现了更高的精准度。这项研究不仅为 RNA 测序技术的发展提供了新的理论框架,还为根据不同平台和测序深度选择最适用的测量工具提供了科学指导。 对于学术界来说,这是首次以严格的科学方法告知研究人员哪些基因复杂、哪些基因简单,以及不同测序技术何时应该被选用。评审人也高度评价了这种方法:“回答了一个领域长久以来一直悬而未决的问题”。 目前,miniQuant 软件已在 GitHub 平台上开放源代码发布(https://github.com/Augroup/miniQuant),并提供了针对不同测序平台和深度组合的预训练模型,包括 cDNA-PacBio、cDNA-ONT 和 dRNA-ONT 等协议。随着长读段测序技术成本的不断下降和精度的不断提高,这种智能整合长短读段的优势方法有望为转录组研究提供更加精确且经济的解决方案,推动基因异构体功能研究的进一步发展。此外,miniQuant 在高通量测序数据分析方面的应用前景也被认为非常广阔,为未来的生物学研究开辟了新的道路。

Related Links