HyperAI超神经
Back to Headlines

新算法 miniQuant 突破基因异构体定量难题,开启 RNA 测序新篇章

9 days ago

近日,美国密歇根大学区健辉教授团队在《自然·生物技术》杂志上发表了一篇研究论文,提出了一种名为 miniQuant 的新算法,成功解决了基因异构体(gene isoform)定量这一长期困扰学界的难题。研究团队指出,目前二代和三代测序技术各有优劣,二代测序读长较短但通量高、成本低,适用于大规模样品分析;而三代测序读长更长,能覆盖完整 RNA 分子,但通量低、成本高,更适合低表达基因的分析。然而,这两者之间的固有矛盾使得科研人员在选择时经常左右为难。 区健辉团队提出了一种全新的 K 值概念,用于量化基因异构体定量过程中的不确定性。K 值是基于广义条件数(generalized condition number)的一个基因特异性指标,定义为读段类-异构体比对概率矩阵的最大和最小正奇异值的比值。研究人员通过数学推导证明,K 值越高,基因异构体定量中的误差就越明显。 研究团队通过对来自 GTEx、TCGA 和 ENCODE 联盟的 17,000 多个公共数据集进行大规模分析,验证了 K 值的有效性和稳健性。结果表明,无论是不同生物学背景、样本资源、测序平台还是数据质量条件下,K 值都能够准确预测基因异构体定量的可靠性。基于这一理论,研究团队开发了 miniQuant 软件,包括 miniQuant-L 和 miniQuant-H 两种模式。前者仅使用长读段进行定量,而后者则是该研究的核心创新点,能够智能整合长短读段数据,优化定量分析的准确性。 miniQuant-H 利用机器学习方法,根据基因结构和数据特征自动调整长短读段的权重组合,从而减少不同类型的误差。对于结构复杂的高 K 值基因,算法更侧重长读段数据以减少解卷积误差;而低 K 值但表达量较低的基因则更多依赖短读段数据,以减少采样误差。这种智能权衡显著提升了数据分析的精度。在多个基准测试中,miniQuant-H 显示出明显的性能优势。无论是在模拟数据还是真实数据中,miniQuant-H 的平均定量误差均低于现有的短读段和长读段工具。 研究人员进一步将 miniQuant 应用于人类胚胎干细胞(ESC)的分化研究中,成功揭示了干细胞向咽内胚层(PE)和原始生殖细胞样细胞(PGC)分化过程中的异构体转换事件。例如,MAT2B 基因虽然其整体表达水平未变,但异构体使用模式发生了显著变化,这可能影响细胞的凋亡调控能力。 miniQuant 的推出不仅填补了理论上的空白,还为科学家提供了一个实用的工具,帮助他们在数据分析前评估基因异构体定量的可靠性,并选择合适的测序技术。区健辉教授强调:“这是我们首次用严谨的科学方法告诉研究人员哪些基因复杂、哪些基因简单,以及何时选择不同测序技术。以前大家都是靠经验和感觉,而现在有了科学的标准。” 多位业内专家对这一研究给予了高度评价,认为它回答了领域内长期以来的一个难题。密歇根大学在生物信息学领域有着深厚的研究基础和丰富的资源,该团队的成果无疑将为未来的基因功能研究带来重要的推动作用。目前,miniQuant 软件已在 GitHub 平台开源发布,并提供了适用于不同测序平台和深度组合的预训练模型,有望成为转录组研究中的重要工具。

Related Links