要約
本論文では、プログレッシブな複数タンパク質配列アラインメント手法の精度を向上させるため、新規かつ簡潔なアプローチを提案した。我々は畳み込みニューラルネットワーク(CNN)と双方向長短期記憶ネットワーク(Bi-LSTM)を組み合わせた意思決定モデルを学習し、異なる事後確率行列を計算することで、入力されたタンパク質配列を段階的にアラインメントした。この手法の評価のために、DLPAlignと名付けた複数配列アラインメントツールを実装し、BAliBASE、OXBench、SABMarkの3つの実証的アラインメントベンチマーク上で、11の代表的なアラインメント手法と性能を比較した。その結果、DLPAlignは3つのベンチマークすべてで最高の総カラムスコアを達成した。特に、平均PID(同一性率)が30%未満の711の低相同性ファミリーに対して評価した場合、DLPAlignは2番目に優れたMSAソフトウェアよりも約2.8%の精度向上を達成した。さらに、SARS-CoV-2関連の4つのタンパク質配列を対象としたタンパク質二次構造予測という実世界の応用においても、DLPAlignは他のアラインメントツールと比較してすべてのケースで最も優れた結果を示した。