더 나은 모달리티 정렬을 위한 크로스-모달 텍스트-분자 검색 연구

다중 모달 텍스트-분자 검색 모델은 텍스트와 분자 모달리티 간의 공유된 특성 공간을 학습하여 정확한 유사도 계산을 수행하는 것을 목표로 합니다. 이는 특정 속성과 활성을 가진 분자를 신속하게 선별하여 약물 설계 과정을 지원합니다. 그러나 기존 연구들은 두 가지 주요 결함이 있습니다. 첫째, 텍스트 시퀀스와 분자 그래프 사이의 큰 차이를 고려하지 않은 채 모달리티 공유 특성을 충분히 포착하지 못합니다. 둘째, 주로 대조학습과 적대적 훈련에 의존하여 크로스-모달리티 정렬을 수행하지만, 이러한 방법들은 주로 1차 유사도에 초점을 맞추어 2차 유사도(임베딩 공간에서 더 많은 구조적 정보를 포착할 수 있음)를 무시합니다.이러한 문제들을 해결하기 위해, 우리는 두 가지 개선점을 갖춘 새로운 다중 모달 텍스트-분자 검색 모델을 제안합니다. 구체적으로, 두 개의 모달리티 전용 인코더 위에 학습 가능한 메모리 벡터를 포함하는 메모리 뱅크 기반 특성 프로젝터를 쌓아서 모달리티 공유 특성을 더 잘 추출할 수 있도록 하였습니다. 더욱 중요한 것은, 모델 훈련 중 각 인스턴스에 대해 네 가지 유사도 분포(텍스트-텍스트, 텍스트-분자, 분자-분자, 분자-텍스트 유사도 분포)를 계산하고, 이러한 유사도 분포 간의 거리를 최소화하여(즉, 2차 유사도 손실) 크로스-모달리티 정렬을 강화하였습니다.실험 결과 및 분석은 우리의 모델의 효과성을 강력하게 입증하였습니다. 특히, 우리의 모델은 최상의 성능(SOTA)을 달성하였으며, 이전에 보고된 최고 결과보다 6.4% 우수한 성능을 보였습니다.