PLAME: プリトレーニングされた言語モデルを活用して強化されたタンパク質多重配列アライメントを生成する

たんぱく質の構造予測は、医薬品の発見と生物学的機能の理解において不可欠です。最近のAlphaFoldなどの進歩により、非常に高い精度が達成されていますが、ほとんどの折りたたみモデルは予測性能を向上させるために多重配列アライメント(MSA)に大きく依存しています。この依存関係は、MSA情報が乏しいか利用できない低同源性たんぱく質やオーファンたんぱく質に対する効果を制限します。この制限に対処するために、私たちはPLAMEという新しいMSA設計モデルを提案します。PLAMEは、事前学習されたたんぱく質言語モデルからの進化的埋め込みを活用し、既存の手法とは異なり、事前学習された表現を導入して進化的情報を強化し、保存度-多様性損失を使用して生成品質を向上させます。さらに、高品質なMSAを選別するための新しいMSA選択方法も提案します。これにより折りたたみ性能が向上します。また、MSA品質評価に新たな視点を提供するシーケンス品質評価指標も提案しています。低同源性およびオーファンたんぱく質のAlphaFold2ベンチマークにおいて、PLAMEは折りたたみ性能強化とシーケンス品質評価で最先端の成果を達成しており、AlphaFold3でも一貫した改善が示されています。削減実験ではMSA選択方法の有効性が確認され、さまざまな種類のたんぱく質に関する広範なケーススタディではAlphaFoldの予測品質とMSA特性との関係について洞察が得られています。さらに、PLAMEはESMFoldの推論速度でAlphaFold2レベルの精度を達成するアダプターとして機能することも示しました。 注:「進化的埋め込み」(evolutionary embeddings)、「保存度-多様性損失」(conservation-diversity loss)、「シーケンス品質評価指標」(sequence quality assessment metric)などの専門用語については一般的な訳を使用しました。「ESMFold」など特定の名称についてはそのまま使用しました。