세미레트로: 세미템플릿 프레임워크가 딥 리트로설계 예측 성능을 향상시킨다

최근 템플릿 기반(TB) 및 템플릿 불필요(TF) 분자 그래프 학습 방법이 반응 역추적(반응 역합성) 분야에서 유망한 성과를 보여주고 있다. TB 방법은 사전에 인코딩된 반응 템플릿을 활용함으로써 높은 정확도를 달성하는 반면, TF 방법은 반응 역추적을 중심 원자 식별과 신톤 완성이라는 하위 문제로 분해함으로써 더 높은 확장성을 제공한다. TB와 TF의 장점을 결합하기 위해 본 연구에서는 전체 템플릿을 여러 개의 반완전 템플릿(semi-templates)으로 분할하고, 이를 이단계 TF 프레임워크에 통합하는 방안을 제안한다. 많은 반완전 템플릿이 중복되므로, 템플릿의 중복을 줄이면서도 핵심 화학 지식은 유지함으로써 신톤 완성에 유리한 환경을 조성할 수 있다. 본 연구에서 제안하는 방법을 ‘SemiRetro’라 명명하며, 중심 원자 식별을 향상시키기 위해 새로운 GNN 계층(DRGAT)을 도입하고, 반완전 템플릿 분류 성능을 향상시키기 위한 새로운 자가 수정 모듈(self-correcting module)을 제안한다. 실험 결과, SemiRetro는 기존의 TB 및 TF 방법 모두를 상당히 능가함을 입증하였다. 확장성 측면에서 SemiRetro는 150개의 반완전 템플릿으로 데이터의 98.9%를 커버하는 반면, 기존 템플릿 기반 GLN은 11,647개의 템플릿을 사용해도 93.3%의 데이터만 커버할 수 있었다. 상위 1위 정확도 측면에서 SemiRetro는 템플릿 불필요 G2G보다 클래스가 알려진 경우 4.8%, 알려지지 않은 경우 6.0% 높은 성능을 기록하였다. 또한, 기존 방법들에 비해 더 뛰어난 학습 효율성을 보였다.