2달 전

분자와 자연어 간의 번역

Carl Edwards; Tuan Lai; Kevin Ros; Garrett Honke; Kyunghyun Cho; Heng Ji
분자와 자연어 간의 번역
초록

우리는 MolT5를 소개합니다. 이는 대량의 라벨이 없는 자연어 텍스트와 분자 문자열에 대한 사전 학습 모델을 위한 자기 지도 학습 프레임워크입니다. MolT5는 전통적인 시각-언어 작업의 새로운, 유용하고 도전적인 유사체들을 가능하게 합니다. 예를 들어, 분자 캡셔닝과 텍스트 기반 de novo 분자 생성(총칭: 분자와 언어 간의 번역) 등이 있습니다. 우리는 이러한 작업들을 처음으로 탐구하였습니다. MolT5가 단일 모달 데이터에 대한 사전 학습을 수행하기 때문에, 화학 영역에서 데이터 부족 문제를 극복하는 데 도움을 줍니다. 또한, 우리는 분자 캡셔닝과 텍스트 기반 분자 생성 작업을 평가하기 위해 여러 가지 지표들을 고려하였으며, 이 중에는 새로운 다중 모달 임베딩 기반 지표도 포함됩니다. 우리의 결과는 MolT5 기반 모델들이 많은 경우에 고품질인 출력, 즉 분자와 캡션을 생성할 수 있음을 보여줍니다.

분자와 자연어 간의 번역 | 최신 연구 논문 | HyperAI초신경