2ヶ月前

深層双方向プロテインシーケンス表現の事前学習に構造情報を取り入れる

Seonwoo Min; Seunghyun Park; Siwon Kim; Hyun-Soo Choi; Byunghan Lee; Sungroh Yoon
深層双方向プロテインシーケンス表現の事前学習に構造情報を取り入れる
要約

ラベリングされていないタンパク質配列とラベリングされたタンパク質配列の数の指数関数的に増大するギャップを埋めるために、いくつかの研究では半教師あり学習を用いてタンパク質配列モデリングに取り組んできた。これらの研究では、大量のラベリングされていないデータでモデルが事前学習され、その表現が様々な下流タスクに転移された。ほとんどの事前学習手法は言語モデルにのみ依存しており、しばしば性能が限定的である。本論文では、PLUS(Protein sequence representations Learned Using Structural information:構造情報を利用したタンパク質配列表現の学習)と呼ばれる新しい事前学習スキームを提案する。PLUSはマスキング言語モデルと補完的なタンパク質特有の事前学習タスク、すなわち同一ファミリー予測から構成される。PLUSは様々なモデルアーキテクチャの事前学習に使用できる。本研究では、PLUSを用いて双方向再帰型ニューラルネットワークを事前学習し、得られたモデルをPLUS-RNNと呼ぶ。実験結果は、7つの広く使用されている蛋白生物学タスクのうち6つにおいて、言語モデルのみで事前学習された同規模の他のモデルよりもPLUS-RNNが優れていることを示している。さらに、定性的解釈分析からの結果を提示し、PLUS-RNNの強みを説明する。PLUSはラベリングされていないタンパク質間の進化関係を利用する新たな方法を提供し、さまざまな蛋白生物学タスクに対して広く適用可能である。我々はラベリングされていないタンパク質とラベリングされたタンパク質の数のギャップが引き続き指数関数的に拡大すると予想しており、提案した事前学習手法がより重要な役割を果たすと考えている。

深層双方向プロテインシーケンス表現の事前学習に構造情報を取り入れる | 最新論文 | HyperAI超神経