
초록
인공지능 분야에서 대규모 기초 모델의 최근 성공은 화학 분야의 사전 학습 모델의 등장을 촉진하였다. 하류 작업에 대해 정보성 있는 표현을 제공하는 대규모 분자 사전 학습 모델에 대한 관심이 증가하고 있음에도 불구하고, 분자 영역에서 다중모달 사전 학습 접근법에 대한 시도는 여전히 제한적이었다. 이러한 문제를 해결하기 위해, 최근의 다중모달 학습 기술의 발전에서 영감을 받아 구조와 생화학적 성질이라는 두 가지 모달리티를 통합한 새로운 다중모달 분자 사전 학습 모델을 제안한다. 제안한 모델의 데이터 처리 및 학습 목표 파이프라인은 구조 및 성질 특징을 공통 임베딩 공간에 정렬함으로써 분자의 구조와 성질 간의 양방향 정보를 모델이 인식할 수 있도록 한다. 이러한 기여는 상호 보완적인 지식을 창출하여, 하나의 모델로 다중모달 및 단일모달 하류 작업을 모두 해결할 수 있게 한다. 광범위한 실험을 통해 제안 모델이 조건부 분자 생성, 성질 예측, 분자 분류, 반응 예측 등 다양한 의미 있는 화학적 과제를 효과적으로 해결할 수 있음을 입증하였다.