PANDA: 서열 정보를 이용한 돌연변이에 따른 단백질 결합 친화도 변화 예측

변이에 의해 단백질 결합 친화도가 어떻게 변화하는지를 정확히 파악하는 것은 새로운 치료제 개발 및 설계, 그리고 변이 연구를 지원하는 데 있어 매우 중요하다. 변이에 따른 결합 친화도 변화를 측정하기 위해서는 정교하고 비용이 많이 들며 시간이 오래 걸리는 실험실 실험이 필요하며, 이를 계산 기반 방법으로 보완할 수 있다. 그러나 대부분의 계산 예측 기법은 단백질 구조를 필요로 하여 구조가 알려진 단백질 복합체에만 적용 가능하다는 한계가 있다. 본 연구에서는 변이에 따른 단백질 결합 친화도 변화를 단백질 서열 정보를 기반으로 예측하는 방법을 탐구하였다. 우리는 단백질 구조 대신 단백질 서열 정보를 활용하고 머신러닝 기법을 결합하여 변이에 따른 결합 친화도 변화를 정확히 예측하는 새로운 방법을 제안하였다. 제안한 서열 기반 결합 친화도 변화 예측기인 PANDA는 동일한 검증 세트에서 기존 방법보다 높은 정확도를 보였으며, 외부 독립 테스트 데이터셋에서도 뛰어난 성능을 나타냈다. 외부 테스트 데이터셋에서 본 연구의 방법은 최대 피어슨 상관 계수 0.52를 기록하였으며, 기존의 최첨단 구조 기반 방법인 MutaBind의 최대 피어슨 상관 계수 0.59에 비해 다소 낮은 수치를 기록하였다. 그러나 본 연구에서 제안한 서열 기반 방법은 기존 구조 기반 방법과 비교해도 경쟁력 있는 성능을 보이며, 더 넓은 적용 가능성을 지닌다. PANDA의 클라우드 기반 웹서버 버전과 파이썬 코드는 각각 https://sites.google.com/view/wajidarshad/software 및 https://github.com/wajidarshad/panda에서 무료로 제공된다.