4달 전
G2GT: 그래프-그래프 어텐션 신경망과 자기 학습을 이용한 역합성 예측
Zaiyun Lin; Shiqiu Yin; Lei Shi; Wenbiao Zhou; YingSheng Zhang

초록
역합성 예측은 유기화학 및 관련 분야에서 가장 기본적인 도전 과제 중 하나입니다. 이 작업의 목표는 제품 분자를 합성할 수 있는 반응물 분자를 찾는 것입니다. 이러한 문제를 해결하기 위해, 표준 트랜스포머 구조를 기반으로 한 그래프 인코더와 그래프 디코더를 사용한 새로운 그래프-그래프 변환 모델인 G2GT를 제안합니다. 또한, 라벨이 부착되지 않은 분자 데이터를 활용하는 강력한 데이터 증강 방법인 자기 학습(self-training)을 통해 모델의 성능을 크게 향상시킬 수 있음을 보여줍니다. 반응 유형 라벨과 앙상블 학습에 영감을 받아 다양성을 강화하기 위한 새로운 약한 앙상블 방법을 제안하였습니다. 이를 위해 비ーム 검색, 핵(nucleus), 상위-k 샘플링 방법을 결합하여 추론 다양성을 더욱 개선하였으며, 최종적으로 상위 10개 결과를 검색하기 위한 간단한 순위 결정 알고리즘을 제안하였습니다. USPTO-50K 데이터셋에서는 상위 1위 정확도가 54%로, 더 큰 데이터셋인 USPTO-full에서는 상위 1위 정확도가 50%로 새로운 최고 수준의 결과를 달성하였으며, 상위 10개 결과에서도 경쟁력 있는 성능을 보였습니다.