2달 전

최적 운송 기반 다중 분해 정렬을 활용한 텍스트-분자 검색 연구

Zijun Min; Bingshuai Liu; Liang Zhang; Jia Song; Jinsong Su; Song He; Xiaochen Bo
최적 운송 기반 다중 분해 정렬을 활용한 텍스트-분자 검색 연구
초록

생물정보학 분야는 상당한 발전을 이루어왔으며, 이에 따라 텍스트-분자 크로스 모달 검색 작업이 점점 더 중요해지고 있습니다. 이 작업은 텍스트 설명에 기반하여 분자 구조를 정확하게 검색하는 것을 목표로 하며, 텍스트 설명과 분자를 효과적으로 일치시키어 연구자가 적합한 분자 후보를 식별할 수 있도록 돕습니다. 그러나 기존의 많은 접근 방식들은 분자의 하위 구조에 내재된 세부 사항을 간과하고 있습니다. 본 연구에서는 텍스트 설명과 분자 간의 다중 해상도 일치를 용이하게 하는 새로운 방법인 최적 운송 기반 다중 해상도 일치 모델(Optimal TRansport-based Multi-grained Alignments model, ORMA)을 소개합니다.ORMA 모델은 텍스트 인코더와 분자 인코더로 구성됩니다. 텍스트 인코더는 텍스트 설명을 처리하여 단어 수준과 문장 수준의 표현을 생성하며, 분자는 계층적 이질 그래프로 모델링되어 원자, 모티브(motif), 그리고 분자 노드를 포함하여 이 세 가지 수준에서 표현을 추출합니다. ORMA의 핵심 혁신 중 하나는 최적 운송(Optimal Transport, OT)을 사용하여 단어와 모티브 사이의 일치를 만드는 것입니다. 이를 통해 여러 단어 일치와 해당 모티브가 통합된 다중 단어 표현을 생성합니다. 또한, 대조 학습(contrastive learning)을 사용하여 세 가지 다른 규모에서 크로스 모달 일치를 개선합니다: 단어-원자, 다중 단어-모티브, 그리고 문장-분자 수준입니다. 이렇게 함으로써 올바르게 매칭된 텍스트-분자 쌍 간의 유사성을 최대화하면서 매칭되지 않은 쌍 간의 유사성은 최소화합니다.우리가 아는 한, 이는 모티브와 다중 단어 수준에서 일치를 탐구하는 첫 번째 시도입니다. ChEBI-20 및 PCdes 데이터셋에서 수행된 실험 결과는 ORMA가 기존 최신(SOTA) 모델들보다 크게 우수함을 입증하였습니다.

최적 운송 기반 다중 분해 정렬을 활용한 텍스트-분자 검색 연구 | 최신 연구 논문 | HyperAI초신경