2달 전

구조 정보를 활용한 깊은 양방향 단백질 서열 표현의 사전 학습

Seonwoo Min; Seunghyun Park; Siwon Kim; Hyun-Soo Choi; Byunghan Lee; Sungroh Yoon
구조 정보를 활용한 깊은 양방향 단백질 서열 표현의 사전 학습
초록

라벨이 부착되지 않은 단백질 서열과 라벨이 부착된 단백질 서열 간의 지수적으로 증가하는 격차를 메우기 위해, 여러 연구에서는 단백질 서열 모델링에 준지도 학습을 도입하였습니다. 이러한 연구에서, 모델들은 많은 양의 라벨이 없는 데이터로 사전 학습되었으며, 그 표현은 다양한 하류 작업으로 전달되었습니다. 대부분의 사전 학습 방법은 언어 모델링에만 의존하여 종종 제한적인 성능을 보입니다. 본 논문에서는 구조 정보를 활용하여 학습된 단백질 서열 표현(Protein sequence representations Learned Using Structural information)이라는 새로운 사전 학습 방식인 PLUS를 소개합니다. PLUS는 마스킹된 언어 모델링과 보완적인 단백질 특화 사전 학습 작업인 동일 가족 예측(same-family prediction)으로 구성됩니다. PLUS는 다양한 모델 아키텍처의 사전 학습에 사용될 수 있습니다. 본 연구에서는 PLUS를 사용하여 양방향 순환 신경망을 사전 학습하였으며, 이를 PLUS-RNN이라고 명명하였습니다. 실험 결과, PLUS-RNN은 7개의 널리 사용되는 단백질 생물학 작업 중 6개에서 언어 모델링만으로 사전 학습된 유사 크기의 다른 모델들보다 우수한 성능을 보였습니다. 또한, 질적 해석 분석 결과를 통해 PLUS-RNN의 장점을 설명합니다. PLUS는 라벨이 없는 단백질 간의 진화적 관계를 활용하는 새로운 방법을 제공하며, 다양한 단백질 생물학 작업에 광범위하게 적용될 수 있습니다. 우리는 라벨이 없는 단백질과 라벨이 있는 단백질 간의 수량 차이가 지수적으로 계속 증가할 것으로 예상되며, 제안된 사전 학습 방법이 더 큰 역할을 할 것으로 기대합니다.

구조 정보를 활용한 깊은 양방향 단백질 서열 표현의 사전 학습 | 최신 연구 논문 | HyperAI초신경