2 个月前

F5C-finder:一种可解释的集成生物语言模型,用于预测mRNA上的5-甲酰胞嘧啶修饰

Guohao Wang; Ting Liu; Hongqiang Lyu; Ze Liu
F5C-finder:一种可解释的集成生物语言模型,用于预测mRNA上的5-甲酰胞嘧啶修饰
摘要

作为一种普遍且动态调控的表观遗传修饰,5-甲酰胞嘧啶(f5C)在多种生物学过程中起着关键作用。然而,传统的f5C检测实验方法通常繁琐且耗时,限制了其在转录组范围内全面绘制f5C位点的能力。尽管计算方法提供了一种成本效益高且通量大的替代方案,但迄今为止尚未开发出专门用于识别f5C的模型。受自然语言处理中语言模型的启发,本研究提出了f5C-finder,这是一种基于集成神经网络并利用多头注意力机制来识别f5C的模型。研究采用了五种不同的特征提取方法构建了五个独立的人工神经网络,并通过集成学习将这些网络整合为f5C-finder。10折交叉验证和独立测试表明,f5C-finder分别达到了0.807和0.827的AUC值,实现了当前最佳(SOTA)性能。该结果突显了生物语言模型在捕捉基因组内顺序(序列)和功能意义(语义)方面的有效性。此外,内置的可解释性使我们能够理解模型的学习过程,从而在识别关键序列元素与深入探索其生物学功能之间架起了一座桥梁。

F5C-finder:一种可解释的集成生物语言模型,用于预测mRNA上的5-甲酰胞嘧啶修饰 | 最新论文 | HyperAI超神经