약물 탐색을 위한 분자 특성 예측의 경계를 다중 작업 학습을 통해 확장하는 BERT 기반의 SMILES 인덱싱 강화 기법
소분자의 약리학적 특성을 정확히 예측하는 것은 신약 개발 과정에서 점점 더 중요한 과제가 되고 있다. 기존의 특성 엔지니어링 기반 접근법은 수작업으로 설계된 서술자(descriptor)와/또는 지문(fingerprint)에 크게 의존하며, 이는 광범위한 전문가 지식이 필요하다. 인공지능 기술의 급속한 발전과 함께, 데이터 기반의 딥러닝 방법은 특성 엔지니어링 기반 방법에 비해 뛰어난 우위를 보이고 있다. 그러나 기존의 딥러닝 기법은 분자 특성 예측에 적용될 때 레이블이 부족한 데이터 문제와 다양한 작업 간 정보 공유가 불가능하다는 한계를 겪어 일반화 성능이 낮은 경우가 많다. 본 연구에서는 대규모 사전 훈련, 다중 작업 학습(multitask learning), 그리고 SMILES(Simplified Molecular Input Line Entry Specification) 인코딩을 활용하여 데이터 부족 문제를 완화하는 새로운 다중 작업 학습 BERT(Bidirectional Encoder Representations from Transformer) 프레임워크인 MTL-BERT를 제안한다. MTL-BERT는 먼저 대량의 레이블 없는 데이터를 자가지도 사전 훈련(self-supervised pretraining)을 통해 활용하여 SMILES 문자열 내에 포함된 풍부한 맥락 정보를 탐색하고, 이후 다양한 하류 작업들 간의 공유 정보를 활용하여 사전 훈련된 모델을 동시에 미세 조정(fine-tuning)한다. 동시에, SMILES 인코딩은 사전 훈련, 미세 조정, 테스트 단계 전반에 걸쳐 데이터 증강 기법으로 사용되어 데이터 다양성을 크게 향상시키고, 복잡한 SMILES 문자열로부터 핵심 관련 패턴을 효과적으로 학습하는 데 기여한다. 실험 결과, 추가적인 미세 조정이 거의 필요 없이 사전 훈련된 MTL-BERT 모델이 60개의 실용적 분자 데이터셋 중 대부분에서 최신 기술 대비 훨씬 우수한 성능을 달성함을 확인하였다. 더불어, MTL-BERT 모델은 어텐션 메커니즘을 활용하여 타겟 특성과 관련된 SMILES 문자 특성에 주목함으로써 모델의 해석 가능성을 높였다.