PLAME: 사전 학습된 언어 모델을 활용한 향상된 단백질 다중 시퀀스 정렬 생성

단백질 구조 예측은 약물 발굴과 생물학적 기능 이해에 필수적입니다. 최근의 AlphaFold와 같은 발전으로 놀라운 정확도를 달성했지만, 대부분의 폴딩 모델은 예측 성능을 향상시키기 위해 다중 시퀀스 정렬(MSAs)에 크게 의존합니다. 이러한 의존성은 MSA 정보가 부족하거나 존재하지 않는 저동일성 단백질과 고아 단백질에서 그들의 효과를 제한합니다. 이 한계를 극복하기 위해, 우리는 사전 학습된 단백질 언어 모델에서 유래한 진화 임베딩을 활용하는 새로운 MSA 설계 모델인 PLAME를 제안합니다. 기존 방법과 달리, PLAME는 사전 학습된 표현을 도입하여 진화 정보를 강화하고, 보존-다양성 손실 함수를 사용하여 생성 품질을 향상시킵니다. 또한, 고품질 MSA를 효과적으로 선별하기 위한 새로운 MSA 선택 방법을 제안하며, 이는 폴딩 성능을 개선하는 데 도움이 됩니다. 우리는 또한 MSA 품질을 평가하기 위한 독립적인 관점을 제공하는 시퀀스 품질 평가 지표를 제안합니다. AlphaFold2 벤치마크에서 저동일성 및 고아 단백질에 대해 PLAME는 폴딩 성능 향상과 시퀀스 품질 평가에서 최신 수준의 성능을 달성하며, AlphaFold3에서도 일관된 개선을 입증하였습니다. 생략 연구(ablation studies)는 MSA 선택 방법의 유효성을 검증하였으며, 다양한 단백질 유형에 대한 광범위한 사례 연구는 AlphaFold의 예측 품질과 MSA 특성 간의 관계에 대한 통찰력을 제공하였습니다. 또한, PLAME가 ESMFold의 추론 속도로 AlphaFold2 수준의 정확도를 달성할 수 있는 어댑터 역할을 할 수 있음을 입증하였습니다.