18일 전

DistilProtBert: 실제 단백질과 무작위로 재정렬된 단백질을 구별하는 데 사용되는 증류된 단백질 언어 모델

{Ron Unger, Yanay Ofran, Yaron Geffen}
초록

최근 자연어 처리(NLP) 분야에서 개발된 딥러닝 모델이 단백질 서열 분석에 성공적으로 적용되고 있다. 이러한 모델의 주요 단점은 적합해야 하는 파라미터 수와 계산 자원 소비량이 매우 크다는 점이다. 최근 NLP 분야에서는 '학생-선생' 네트워크 개념을 활용한 '다운사이징(distilled)' 모델이 널리 사용되고 있다. 본 연구에서는 이 개념을 단백질 서열 분석 문제에 적용하여 성공적인 ProtBert 모델의 다운사이징 버전인 DistilProtBert를 개발하였다. 이 접근법을 통해 네트워크 크기와 실행 시간을 50% 감소시키고, 사전 학습에 필요한 계산 자원을 ProtBert 모델 대비 98% 절감하였다. 두 가지 공개된 작업을 통해 다운사이징된 모델의 성능이 전체 모델에 근접함을 입증하였다. 이후 우리는 DistilProtBert가 실제 단백질 서열과 무작위 단백질 서열을 구분하는 능력을 시험하였다. 아미노산의 단일체, 이량체, 삼량체 수준에서 구성이 유지되는 경우 이 작업은 매우 도전적인 과제이며, 기존의 기계학습 알고리즘이 이에 어려움을 겪는다. 본 연구에서는 DistilProtBert가 인간 단백질체의 단일체, 이량체, 삼량체 셔플링 버전에 대해 각각 AUC 0.92, 0.91, 0.87의 높은 성능을 보였음을 보여주었다. 마지막으로, DistilProtBert가 잘못 분류된 경우(즉, 셔플링된 서열을 실제 단백질로 판단한 경우)를 분석함으로써 무작위 아미노산 서열 셔플링을 통해 새로운 자연계 유사 단백질 후보를 탐색할 수 있을 것이라 제안한다.