11일 전

SSM-DTA: 약물-표적 친화도 예측에서 데이터 부족 문제 극복

Qizhi Pei, Lijun Wu, Jinhua Zhu, Yingce Xia, Shufang Xie, Tao Qin, Haiguang Liu, Tie-Yan Liu, Rui Yan
SSM-DTA: 약물-표적 친화도 예측에서 데이터 부족 문제 극복
초록

약물-표적 친화도(Drug-Target Affinity, DTA)의 정확한 예측은 초기 단계의 약물 발견에서 매우 중요한 역할을 하며, 특정 표적과 효과적으로 상호작용하여 그 활성을 조절할 수 있는 약물의 식별을 촉진한다. 현재까지 실험실에서의 실험(wet experiments)이 가장 신뢰할 수 있는 방법으로 여겨지지만, 이러한 방법은 시간과 자원이 많이 소요되며, 그 결과 데이터의 가용성이 제한적이며, 이는 딥러닝 기법의 적용에 있어 큰 도전 과제가 되고 있다. 기존의 연구들은 주로 존재하는 DTA 데이터 기반의 기술 개발에 집중해 왔으며, 데이터 부족 문제에 대한 충분한 고려는 이루어지지 않았다. 이러한 문제를 해결하기 위해, 우리는 세 가지 간단하면서도 매우 효과적인 전략을 통합한 SSM-DTA 프레임워크를 제안한다. 첫째, 쌍을 이룬 약물-표적 데이터를 활용하여 DTA 예측과 마스크 언어 모델링(Masked Language Modeling, MLM)을 결합한 다중 작업(multi-task) 학습 방식을 도입한다. 둘째, 대규모의 쌍을 이루지 않은 분자와 단백질 데이터를 활용하여 반감독(semi-supervised) 학습을 수행함으로써 약물 및 표적 표현을 강화한다. 이는 이전 연구들이 사전 학습 과정에서 단지 분자 또는 단백질 중 하나만 사용한 것과는 차별화되는 접근 방식이다. 셋째, 가벼운 크로스 어텐션(cross-attention) 모듈을 도입하여 약물과 표적 간의 상호작용을 개선함으로써 예측 정확도를 더욱 향상시킨다. BindingDB, DAVIS, KIBA와 같은 기준 데이터셋에서 실시한 광범위한 실험을 통해 본 프레임워크의 우수한 성능을 입증하였다. 또한, 특정 약물-표적 결합 활성에 대한 사례 연구, 가상 스크리닝 실험, 약물 특징 시각화, 실제 응용 사례 등을 수행하였으며, 이들 모두가 본 연구의 큰 잠재력을 입증한다. 결론적으로, 제안하는 SSM-DTA 프레임워크는 DTA 예측에서의 데이터 제한 문제를 효과적으로 해결하고, 유망한 결과를 도출함으로써 보다 효율적이고 정확한 약물 발견 프로세스의 길을 열어주었다. 본 연구의 코드는 $\href{https://github.com/QizhiPei/SSM-DTA}{Github}$에서 공개되어 있다.

SSM-DTA: 약물-표적 친화도 예측에서 데이터 부족 문제 극복 | 최신 연구 논문 | HyperAI초신경