2달 전

최신 증강 NLP 트랜스포머 모델을 이용한 직접적이고 단일 단계의 역합성

Igor V. Tetko; Pavel Karpov; Ruud Van Deursen; Guillaume Godin
최신 증강 NLP 트랜스포머 모델을 이용한 직접적이고 단일 단계의 역합성
초록

우리는 화학 반응의 텍스트 형태 표현(SMILES)과 자연어 처리(Natural Language Processing, NLP) 신경망 트랜스포머 아키텍처를 사용하여 다양한 학습 시나리오가 화합물의 (역)합성 예측에 미치는 영향을 조사했습니다. 우리는 이미지 처리에서 강력한 방법으로 사용되는 데이터 증강이 신경망의 데이터 기억 효과를 제거하고 새로운 시퀀스 예측 성능을 개선했다는 것을 보여주었습니다. 이 효과는 입력 데이터와 대상 데이터를 동시에 증강할 때 관찰되었습니다. USPTO-50k 테스트 데이터셋에서 가장 큰 조각(따라서 고전적인 역합성에서 주요 변환을 식별함)의 예측에 대한 상위 5 정확도는 SMILES 증강과 빔 검색 알고리즘의 조합으로 84.8%를 달성했습니다. 동일한 접근 방식은 단일 단계 USPTO-MIT 테스트 세트에서 직접 반응의 예측 결과가 크게 개선됨을 입증했습니다. 우리의 모델은 도전적인 혼합 세트에서 상위 1 정확도 90.6%, 상위 5 정확도 96.1%를 달성했으며, USPTO-MIT 분리 세트에서는 상위 5 정확도 97%를 달성했습니다. 또한 우리의 모델은 USPTO-전체 세트 단일 단계 역합성에서 상위 1 및 상위 10 정확도 모두 크게 개선되었습니다. 가장 많이 생성된 SMILES의 출현 빈도는 예측 결과와 잘 상관되어 있으며, 이를 반응 예측의 질 측정 지표로 사용할 수 있습니다.

최신 증강 NLP 트랜스포머 모델을 이용한 직접적이고 단일 단계의 역합성 | 최신 연구 논문 | HyperAI초신경