17일 전
단백질 서열과 소분자에 대한 선형 스케일링 커널은 딥러닝을 능가하며, 불확실성 정량화와 개선된 해석 가능성을 제공한다.
Jonathan Parkinson, Wei Wang

초록
가우시안 프로세스(GP)는 기계학습에서 회귀 과제에 있어 신뢰할 수 있는 불확실성 측정 및 해석 가능성 향상과 같은 여러 장점을 제공하는 베이지안 모델이다. 그러나 과도한 계산 비용과 아미노산 서열 및 핵산 서열과 같은 시퀀스 데이터, 소분자 구조를 나타내는 그래프 데이터 분석에 적용하기 어려운 점으로 인해 그 활용이 제한되어왔다. 본 연구에서는 그래프 또는 시퀀스 크기에 대해 선형적으로 확장되는 빠른 컨볼루션 커널과 함께, GP 모델을 효율적이고 확장 가능한 방식으로 적합화하는 방법을 개발하였다. 이러한 개선 사항들은 오픈소스 파이썬 라이브러리인 xGPR로 구현되었다. 우리는 xGPR의 성능을 소분자, 단백질 서열, 표형 데이터를 포함한 20개의 벤치마크에서 다양한 딥러닝 모델의 보고된 성능과 비교하였다. 그 결과, xGPR은 훨씬 짧은 학습 시간으로도 매우 경쟁력 있는 성능을 달성함을 보였다. 또한, 시퀀스 및 그래프 데이터를 위한 새로운 커널을 개발하여, 단백질과 소분자의 주요 특성을 예측하는 데 있어 xGPR이 일반적으로 컨볼루션 신경망(CNN)을 능가함을 입증하였다. 특히 xGPR은 일반적인 딥러닝 모델에서는 제공되지 않는 불확실성 정보를 제공하며, 입력 데이터를 표현하는 방식을 통해 군집화 및 데이터 시각화에 활용할 수 있는 표현을 제공한다. 이러한 결과들은 xGPR이 단백질 공학 및 신약 개발 분야에서 광범위하게 유용할 수 있는 강력하고 일반적인 도구임을 입증한다.