
합성 계획과 반응 결과 예측은 컴퓨터 지원 유기 화학에서 두 가지 기본적인 문제로, 이를 해결하기 위해 다양한 데이터 기반 접근법이 등장했습니다. 각 문제를 SMILES-to-SMILES 번역으로 모델링하는 자연어 접근법은 단순한 엔드투엔드 구성을 제공하며, 데이터 전처리의 필요성을 줄이고, 잘 최적화된 기계 번역 모델 아키텍처의 사용을 가능하게 합니다. 그러나 SMILES 표현은 분자 구조에 대한 정보를 효과적으로 포착하는 데 효율적이지 않다는 점이 증명되었습니다. 이는 SMILES 증강이 경험적 성능을 향상시키는 데 성공한 사실로 입증됩니다. 본 연구에서는 텍스트 생성을 위한 Transformer 모델의 힘과 입력 데이터 증강의 필요성을 완화하는 분자 그래프 인코더의 순서 불변성을 결합한 새로운 Graph2SMILES 모델을 설명합니다. 엔드투엔드 아키텍처로서 Graph2SMILES는 분자-분자 변환을 포함하는 어떤 작업에서도 Transformer를 대체할 수 있는 솔루션으로 활용될 수 있습니다.우리의 인코더에서는 주목력(attention) 강화된 방향 메시지 전달 신경망(D-MPNN)이 지역 화학 환경을 포착하고, 전역 주목력 인코더는 장거리 및 분자 간 상호작용을 허용하며, 그래프 인식 위치 임베딩(graph-aware positional embedding)에 의해 강화됩니다. Graph2SMILES는 USPTO_480k와 USPTO_STEREO 데이터셋에서 각각 1.7%와 1.9% 개선된 최고 1위 정확도를 보여주며, USPTO_50k 데이터셋에서 한 단계 역합성(one-step retrosynthesis) 예측 정확도를 9.8% 개선하였습니다.