SMILES 데이터를 위한 양방향-LSTM을 활용한 약물 안전성 평가의 가속화

계산적 방법은 약물 발견의 속도를 가속화하는 데 유용하다. 약물 발견은 타겟 식별 및 검증, 리드 화합물 탐색, 리드 최적화 등의 여러 단계를 포함한다. 리드 최적화 단계에서는 리드 화합물의 흡수, 분포, 대사, 배설 및 독성(ADMET) 특성을 평가한다. 리드 화합물의 독성 및 용해도 예측 문제를 해결하기 위해, 단순 분자 입력 라인 입력 시스템(Simplified Molecular Input Line Entry System, SMILES) 표기법으로 표현된 화합물 데이터를 활용한다. SMILES 데이터를 다루는 다양한 접근법 중에서 본 연구에서는 시퀀스 기반 접근법을 사용하여 모델을 구축하였다. 제안된 이방향 장단기 메모리(Bi-Directional Long Short Term Memory, BiLSTM)는 순환 신경망(Recurrent Neural Network, RNN)의 변형으로, 분자 시퀀스 입력을 전방 및 후방 방향에서 동시에 처리함으로써 분자의 구조적 특성을 종합적으로 분석할 수 있도록 한다. 본 연구는 SMILES 문자열에 인코딩된 순차적 패턴을 이해하고, 이를 바탕으로 분자의 독성을 예측하는 것을 목표로 한다. 제안된 모델은 ClinTox 데이터셋에서 기존의 Trimnet 및 사전 훈련된 그래프 신경망(Graph Neural Network, GNN)과 비교하여 ROC 정확도 0.96을 달성하며, 기존 모델을 능가한다. 또한 FreeSolv 데이터셋에서 용해도 예측에 있어 RMSE 값이 1.22로 낮아 기존 모델보다 우수한 성능을 보였다.