
タンパク質二次構造予測は、数十年にわたりバイオインフォマティクス分野における中心的な研究テーマである。しかし、最も高度なab initio予測手法であっても、三状態予測精度の理論限界(88–90%)に到達できず、また、従来のヘリックス、ストランド、コイルの3つのクラスを超える分類を実現できる手法は少数にとどまっている。本研究では、単一配列および進化的プロファイルに基づく入力データを用いて学習された異なるモデルを検証し、新たな最先端システム「Porter 5」を構築した。Porter 5は、連鎖型双方向再帰型ニューラルネットワーク(Bidirectional Recurrent Neural Networks)と畳み込みニューラルネットワーク(Convolutional Neural Networks)のアンサンブル構造を採用しており、新たな入力符号化手法を統合し、多数のタンパク質構造データセットを用いて学習されている。独立した大規模データセット上で評価した結果、Porter 5は3クラス予測において84%の精度(SOV: 81%)、8クラス予測では73%の精度(SOV: 70%)を達成した。本研究の評価では、Porter 5は前バージョンより2%の精度向上を示し、テストした最新の二次構造予測手法と比較して優れるか、同等の性能を発揮した。さらに、SCOPeに基づくデータセットを用いて訓練サンプルとテストサンプルの相同性を排除した再訓練を行った場合でも、類似の結果が得られた。Porterは、ウェブサーバーおよびスタンドアロンプログラムとして、http://distilldeep.ucd.ie/porter/ にて公開されており、すべてのデータセットおよびアラインメントも併せて提供されている。