
분자 지식은 세 가지 다른 정보 소스 모달리티에 존재합니다: 분자 구조, 생의학 문서, 그리고 지식 기반입니다. 이러한 모달리티에서 분자 지식을 효과적으로 통합하는 것은 생의학 연구를 촉진하는 데 있어 매우 중요한 역할을 합니다. 그러나 기존의 다중모달 분자 기초 모델들은 분자 구조와 텍스트 간의 복잡한 연결성을 포착하는 데 한계가 있으며, 더욱이 이들 중 어느 것도 지식 그래프에서 유래된 풍부한 분자 전문성을 활용하려는 시도를 하지 않았습니다. 본 연구에서는 MolFM이라는 다중모달 분자 기초 모델을 소개합니다. 이 모델은 분자 구조, 생의학 텍스트, 그리고 지식 그래프로부터 공동 표현 학습을 촉진하도록 설계되었습니다. 우리는 분자 구조의 원소들, 분자 엔터티들의 이웃, 그리고 의미적으로 관련된 텍스트 사이의 교차모달 주의 메커니즘을 제안하여 교차모달 이해를 돕습니다. 또한 이론적 분석을 통해 우리의 교차모달 사전 학습이 동일한 분자의 다른 모달리티 간의 특성 공간 내 거리를 최소화함으로써 지역적 및 전역적인 분자 지식을 포착함을 보여줍니다. MolFM은 다양한 후속 작업에서 최고 수준의 성능을 달성하였습니다. 제로샷 설정과 미세 조정(fine-tuning) 설정에서 MolFM은 각각 12.13%와 5.04%의 절대적인 성능 개선을 보여주며, 기존 모델들을 능가하였습니다. 더불어 정성적 분석은 MolFM이 분자의 부분 구조와 지식 그래프로부터 근거를 제공하는 암묵적인 능력을 보여줍니다. 코드와 모델은 https://github.com/BioFM/OpenBioMed 에서 이용 가능합니다.