2달 전

ProtTrans: 자기 지도 딥 러닝과 고성능 컴퓨팅을 통해 생명의 코드 언어를 해독하기로 노력함

Ahmed Elnaggar; Michael Heinzinger; Christian Dallago; Ghalia Rihawi; Yu Wang; Llion Jones; Tom Gibbs; Tamas Feher; Christoph Angerer; Martin Steinegger; Debsindhu Bhowmik; Burkhard Rost
ProtTrans: 자기 지도 딥 러닝과 고성능 컴퓨팅을 통해 생명의 코드 언어를 해독하기로 노력함
초록

컴퓨테이셔널 바이올로지와 바이오인포메틱스는 단백질 서열에서 언어 모델(LM)을 위한 방대한 데이터 광산을 제공합니다. 이러한 LM은 저렴한 추론 비용으로 새로운 예측 영역에 도달할 수 있습니다. 본 연구에서는 UniRef와 BFD 데이터베이스에서 최대 393억 개의 아미노산을 포함하는 데이터를 사용하여 두 개의 자기 회귀 모델(Transformer-XL, XLNet)과 네 개의 자기 인코더 모델(BERT, Albert, Electra, T5)을 훈련시켰습니다. 이 언어 모델들은 5616개의 GPU와 최대 1024개 코어를 가진 TPU Pod를 사용하여 Summit 슈퍼컴퓨터에서 훈련되었습니다. 차원 축소 결과는 라벨링되지 않은 데이터에서 얻은 원시 단백질 LM 임베딩이 단백질 서열의 일부 생물 물리학적 특성을 포착함을 보여주었습니다. 우리는 이러한 임베딩을 독점적으로 입력으로 사용하는 몇 가지 후속 작업에서 이 임베딩들의 우위성을 검증했습니다. 첫 번째 작업은 단백질 2차 구조의 위치별 예측(3상 정확도 Q3=81%-87%)이었으며, 두 번째 작업은 단백질 세포 내 위치(10상 정확도: Q10=81%)와 막 결합형 대비 수용성(2상 정확도 Q2=91%)에 대한 단백질별 예측이었습니다. 위치별 예측에서는 가장 정보가 많은 임베딩(ProtT5)을 처음으로 전송하여 진화 정보를 사용하지 않고도 기존 최고 수준의 성능을 초월하였습니다. 이를 통해 고가의 데이터베이스 검색 과정을 생략할 수 있었습니다. 종합적으로, 결과는 단백질 LM들이 생명 언어의 일부 문법을 학습하였음을 시사하였습니다. 미래 연구를 지원하기 위해, 우리는 우리의 모델들을 https://github.com/agemagician/ProtTrans 에 공개하였습니다.

ProtTrans: 자기 지도 딥 러닝과 고성능 컴퓨팅을 통해 생명의 코드 언어를 해독하기로 노력함 | 최신 연구 논문 | HyperAI초신경