11 天前
GCBLANE:一种基于图增强的卷积双向LSTM注意力网络,用于提升转录因子结合位点的预测性能
Jonas Chris Ferrao, Dickson Dias, Sweta Morajkar, Manisha Gokuldas Fal Dessai

摘要
识别转录因子结合位点(Transcription Factor Binding Sites, TFBS)对于理解基因调控机制至关重要,因为这些位点使转录因子(Transcription Factors, TFs)能够结合DNA并调控基因表达。尽管高通量测序技术取得了显著进展,但由于基因组数据量庞大以及转录因子结合模式的复杂性,准确识别TFBS仍面临挑战。为此,本文提出了一种基于图增强的卷积双向长短期记忆网络(Graph-enhanced Convolutional Bidirectional LSTM Attention Network, GCBLANE),以解决该问题。GCBLANE通过融合卷积层、多头注意力机制与循环神经网络,并引入图神经网络(Graph Neural Network, GNN),有效捕捉TFBS预测的关键特征。在690个ENCODE ChIP-Seq数据集上的实验表明,GCBLANE的平均AUC达到0.943;在另外165个ENCODE数据集上,AUC进一步提升至0.9495,显著优于采用多模态信息(包括DNA形状特征)的先进模型。这一结果充分证明了GCBLANE在TFBS预测任务中的优越性能。通过将基于图的表示学习与序列分析相结合,GCBLANE在转录因子结合位点识别方面实现了显著进展,为基因调控研究提供了强有力的计算工具。