11日前
GCBLANE:転写因子結合部位予測のためのグラフ強化型畳み込みBiLSTMアテンションネットワーク
Jonas Chris Ferrao, Dickson Dias, Sweta Morajkar, Manisha Gokuldas Fal Dessai

要約
転写因子結合部位(TFBS)の同定は、転写因子(TF)がDNAに結合し遺伝子発現を調節する仕組みを理解する上で不可欠である。高スループットシーケンシング技術の進展にもかかわらず、膨大なゲノムデータと複雑な結合パターンのため、TFBSを正確に同定することは依然として困難である。本研究では、グラフ拡張型畳み込み双方向LSTM(Long Short-Term Memory)アテンションネットワークであるGCBLANEを提案し、この課題に取り組む。GCBLANEは、畳み込み層、マルチヘッドアテンション層、再帰層とグラフニューラルネットワーク(GNN)を統合することで、TFBS予測に重要な特徴を効果的に抽出する。690件のENCODE ChIP-Seqデータセットにおいて、GCBLANEは平均AUC 0.943を達成し、165件のENCODEデータセットではAUC 0.9495を記録した。これは、DNA形状情報などのマルチモーダル情報を活用する先進的なモデルをも上回る性能であり、GCBLANEの優れた予測能力を示している。グラフベース学習と配列解析を統合することで、GCBLANEはTFBS予測の分野において顕著な進展をもたらした。