15일 전

Text2Mol: 자연어 쿼리 기반의 크로스모달 분자 검색

{Heng Ji, ChengXiang Zhai, Carl Edwards}
Text2Mol: 자연어 쿼리 기반의 크로스모달 분자 검색
초록

우리는 자연어 설명을 쿼리로 사용하여 분자를 검색하는 새로운 작업인 Text2Mol을 제안한다. 자연어와 분자는 매우 다른 방식으로 정보를 인코딩하므로, 이러한 두 가지 매우 다른 모달리티를 통합하는 것은 흥미롭지만 도전적인 문제를 야기한다. 텍스트 기반 검색 및 구조 기반 검색에 관한 일부 연구가 진행되었지만, 이 새로운 작업은 분자와 자연어를 보다 직접적으로 통합하는 것을 요구한다. 또한 분자를 매우 독특한 문법을 가진 언어로 간주할 경우, 이는 특히 도전적인 다국어 간 검색 문제로 볼 수 있다. 우리는 분자와 해당하는 텍스트 설명의 쌍을 구성한 데이터셋을 구축하여, 검색을 위한 일치된 공통 의미 임베딩 공간을 학습하는 데 사용한다. 또한 주의(attention)를 연관 규칙(association rules)으로 해석함으로써, 다모달 주의 기반 모델을 확장하여 설명 가능성과 재정렬(re-ranking)을 가능하게 했다. 더불어, 다양한 아키텍처를 통합하기 위한 앙상블 방법을 도입하여 MRR(평균 순위 역수) 성능을 0.372에서 0.499로 크게 향상시켰다. 이러한 새로운 다모달 접근법은 화학 문헌 이해 및 분자 기계 학습 분야의 문제 해결에 새로운 관점을 제시한다.

Text2Mol: 자연어 쿼리 기반의 크로스모달 분자 검색 | 최신 연구 논문 | HyperAI초신경