2달 전
GIT-Mol: 분자 과학을 위한 그래프, 이미지, 텍스트를 활용한 다중 모달 대형 언어 모델
Pengfei Liu; Yiming Ren; Jun Tao; Zhixiang Ren

초록
대형 언어 모델은 자연어 처리 분야에서 큰 발전을 이루어냈으며, 분자과학에서 혁신적인 응용 프로그램을 가능하게 하였습니다. 이는 분자의 텍스트 표현을 처리함으로써 이루어졌습니다. 그러나 대부분의 기존 언어 모델은 복잡한 분자 구조나 이미지를 포함하는 풍부한 정보를 포착할 수 없습니다. 본 논문에서는 그래프, 이미지, 텍스트 정보를 통합하는 다중 모드 대형 언어 모델인 GIT-Mol을 소개합니다. 다중 모드 분자 데이터의 통합을 용이하게 하기 위해, 모든 모드를 통일된 잠재 공간으로 정렬할 수 있는 새로운 아키텍처인 GIT-Former를 제안합니다. 우리는 기준모델과 비교하여 속성 예측 정확도를 5-10% 향상시키고, 분자 생성 유효성을 20.2% 높이는 성과를 달성하였습니다. 어떤 형태든 언어로 번역할 수 있는 분자 번역 전략 덕분에, 우리 모델은 화합물 이름 인식 및 화학 반응 예측과 같은 더 많은 다운스트림 작업을 수행할 잠재력을 가지고 있습니다.