
초록
최근 수십 년 동안 머신 러닝과 딥 러닝은 약물 탐색 분야에서 인기를 얻고 큰 성공을 거두었습니다. 역사적으로, 머신 러닝과 딥 러닝 모델은 구조적 데이터나 화학적 특성 중 하나만을 사용하여 개별적으로 훈련되었습니다. 본 연구에서는 전체적인 성능을 향상시키기 위해 이러한 두 종류의 데이터를 동시에 훈련하는 아키텍처를 제안하였습니다. 분자의 구조(SMILES 표기법 형태)와 그 라벨이 주어졌을 때, 우리는 SMILES 기반 특징 행렬과 분자 설명자를 생성하였습니다. 이 데이터는 또한 Attention 메커니즘을 통합하여 훈련과 해석을 용이하게 하는 딥 러닝 모델에 적용되었습니다. 실험 결과, 우리의 모델은 참조 모델에 비해 예측 성능이 향상되는 것을 확인할 수 있었습니다. EGFR 저해제 데이터셋에서 교차 검증을 통해 최대 MCC 0.58 및 AUC 90%를 달성한 결과, 우리의 아키텍처는 참조 모델보다 우수한 성능을 보였습니다. 또한 우리는 Attention 메커니즘을 모델에 성공적으로 통합하였으며, 이는 화학 구조가 생물 활성에 미치는 영향을 해석하는 데 도움이 되었습니다.