최첨단 단백질 2차 구조 예측을 위한 심층적 프로파일 및 계단식 순환 및 합성곱 신경망

단백질 이차 구조 예측은 수십 년 동안 생물정보학 분야에서 핵심 연구 주제로 여겨져 왔다. 그럼에도 불구하고, 가장 정교한 ab initio 이차 구조 예측기조차도 세 상태 예측 정확도의 이론적 한계(88–90%)에 도달하지 못하고 있으며, 3가지 전통적인 구조 클래스인 헬릭스, 스트랜드, 코일을 넘어서는 예측을 수행하는 예측기는 극히 소수에 불과하다. 본 연구에서는 단일 서열 및 진화적 프로파일 기반 입력을 활용해 학습된 다양한 모델에 대한 실험을 수행하고, 새로운 최신 기술 수준의 시스템인 Porter 5를 개발하였다. Porter 5는 계단식 연결된 양방향 순환 신경망(Bidirectional Recurrent Neural Networks)과 합성곱 신경망(Convolutional Neural Networks)의 앙상블로 구성되며, 새로운 입력 인코딩 기법을 도입하고 대규모 단백질 구조 데이터셋을 기반으로 학습되었다. Porter 5는 독립된 대규모 테스트 세트에서 3개 클래스 예측 시 84%의 정확도(81% SOV)를 달성하였으며, 8개 클래스 예측에서는 73%의 정확도(70% SOV)를 기록하였다. 실험 결과, Porter 5는 이전 버전보다 2% 더 높은 정확도를 보였으며, 테스트한 최신 이차 구조 예측기들과 비교해도 우수하거나 동등한 성능을 나타냈다. 또한, 학습 및 테스트 샘플 간의 동종성(homology)을 제거하기 위해 SCOPe 기반 데이터셋으로 Porter 5를 재학습한 결과, 유사한 성능을 얻었다. Porter는 웹 서버 및 독립 실행형 프로그램으로 제공되며, 모든 데이터셋과 서열 정렬 자료와 함께 http://distilldeep.ucd.ie/porter/ 에서 이용할 수 있다.