16일 전
LEP-AD: 단백질의 언어 임베딩과 약물에 대한 어텐션을 통한 약물 타겟 상호작용 예측
{Jesper Tegnér, Narsis A. Kiani, Robert Hoehndorf, David Gomez Cabrero, Sumeer Ahmad Khan, Anuj Daga}
초록
약물-표적 상호작용 예측은 약물 개발 및 리드 최적화 과정에서 매우 큰 도전 과제이다. 최근의 기술 발전은 데이터와 분자 시뮬레이션을 기반으로 약물-표적 상호작용을 학습하는 알고리즘을 훈련하는 방향으로 나아가고 있다. 본 연구에서는 진화적 스케일 모델링(ESM-2) 모델을 활용하여 약물-표적 상호작용 예측을 위한 트랜스포머 기반 단백질 언어 모델을 구축하였다. 제안하는 아키텍처인 LEP-AD는 사전 훈련된 ESM-2 모델과 트랜스포머-GCN 모델을 결합하여 결합 친화도 값을 예측한다. 다양한 데이터셋(Davis, KIBA, DTC, Metz, ToxCast, STITCH 등)을 사용하여 SimBoost, DeepCPI, Attention-DTA, GraphDTA 등과 같은 기존 방법들과 비교하여 최신 기준을 초월하는 새로운 최고 성능을 보고한다. 마지막으로, 단백질의 임베딩을 활용한 사전 훈련 모델(LED-AD)이 알파폴드(AlphaFold)를 기반으로 한 3차원 구조 표현을 사용하는 모델(예: 알파폴드에 의해 지도된 LEP-AD)보다 우수한 성능을 나타내는 것으로 확인되었다. 또한 LEP-AD 모델은 훈련 데이터 크기가 증가함에 따라 성능이 유리하게 확장됨을 확인하였다. 코드는 다음 링크에서 제공된다: https://github.com/adaga06/LEP-AD