2ヶ月前

ProtTrans: 自教師深層学習と高性能計算を用いた生命のコードの言語解読へ向けた研究

Ahmed Elnaggar; Michael Heinzinger; Christian Dallago; Ghalia Rihawi; Yu Wang; Llion Jones; Tom Gibbs; Tamas Feher; Christoph Angerer; Martin Steinegger; Debsindhu Bhowmik; Burkhard Rost
ProtTrans: 自教師深層学習と高性能計算を用いた生命のコードの言語解読へ向けた研究
要約

計算生物学とバイオインフォマティクスは、タンパク質配列から言語モデル(NLPから借用)に利用可能な大量のデータを提供します。これらの言語モデルは、低推論コストで新しい予測の境界に到達しています。本研究では、UniRefおよびBFDデータセット(最大3930億アミノ酸を含む)を使用して、2つの自己回帰モデル(Transformer-XL, XLNet)と4つの自己符号化器モデル(BERT, Albert, Electra, T5)を訓練しました。これらの言語モデルはSummitスーパーコンピュータ上で5616個のGPUと最大1024コアのTPU Podを使用して訓練されました。次元削減により、ラベルなしデータからの原始的なタンパク質言語モデル埋め込みがタンパク質配列のいくつかの生物物理的特性を捉えていることが明らかになりました。私たちは、これらの埋め込みを排他的な入力として使用することの利点を複数の後続タスクで検証しました。最初のタスクは、タンパク質二次構造の残基ごとの予測(3状態精度Q3=81%-87%)でした;次のタスクは、タンパク質細胞内局在性(10状態精度:Q10=81%)と膜貫通性対水溶性(2状態精度Q2=91%)のタンパク質ごとの予測でした。残基ごとの予測において、最も情報量豊富な埋め込み(ProtT5)が初めて進化的情報を使用せずに最先端レベルを超える性能を示し、高価なデータベース検索を回避することができました。総じて、これらの結果はタンパク質言語モデルが生命の言語の文法の一端を学習していることを示唆しています。今後の研究を促進するために、私たちのモデルはhttps://github.com/agemagician/ProtTransで公開されています。