PlantLncBoost:植物 lncRNA 识别的关键特征以及准确性和泛化能力的显著提升
Xue-Chan Tian, Shuai Nie, Douglas Domingues, Alexandre Rossi Paschoal, Li-Bo Jiang, Jian-Feng Mao
发布日期: 6/18/2025

摘要
长链非编码RNA (lncRNA) 是植物众多生物学过程的关键调控因子。然而,由于其在不同物种间的序列保守性较低,其鉴定颇具挑战性。现有的 lncRNA 识别计算方法往往难以推广至不同植物物种,这凸显了对更稳健、更通用的识别模型的需求。 我们在此提出 PlantLncBoost,这是一种旨在提升植物 lncRNA 识别泛化能力的新型计算工具。通过整合先进的梯度提升算法和全面的特征选择,我们的方法兼具高准确率和泛化能力。我们对 1662 个特征进行了广泛的分析,并确定了三个关键特征——ORF 覆盖率、复数傅里叶平均值和原子傅里叶振幅——它们可以有效区分 lncRNA 和 mRNA。 我们使用来自 20 个植物物种的综合数据集评估了 PlantLncBoost 的性能。该模型表现出色,准确率达到 96.63%,灵敏度达到 98.42%,特异性达到 94.93%,显著优于现有工具。进一步分析表明,我们选定的特征能够有效捕捉多种植物物种中 lncRNA 和 mRNA 之间的差异。 PlantLncBoost 代表了植物 lncRNA 识别领域的重大进步。它可在 GitHub 上免费获取,并已集成到全面的分析流程 Plant-LncRNA-pipeline v.2 ( https://github.com/xuechantian/Plant-LncRNA-pipeline-v2 )。