HyperAIHyperAI
il y a 2 mois

MolFM : Un Modèle Fondamental Moléculaire Multimodal

Yizhen Luo; Kai Yang; Massimo Hong; Xing Yi Liu; Zaiqing Nie
MolFM : Un Modèle Fondamental Moléculaire Multimodal
Résumé

Les connaissances moléculaires sont contenues dans trois types différents de sources d'information : les structures moléculaires, les documents biomédicaux et les bases de connaissances. L'intégration efficace des connaissances moléculaires provenant de ces modalités est d'une importance primordiale pour faciliter la recherche biomédicale. Cependant, les modèles fondamentaux multimodaux existants présentent des limites dans la capture des connexions complexes entre les structures moléculaires et les textes, et plus important encore, aucun d'eux n'essaie d'exploiter l'abondance d'expertise moléculaire dérivée des graphes de connaissances. Dans cette étude, nous introduisons MolFM, un modèle fondamental multimodal conçu pour faciliter l'apprentissage conjoint de représentations à partir des structures moléculaires, des textes biomédicaux et des graphes de connaissances. Nous proposons une attention croisée entre les atomes des structures moléculaires, les voisins des entités moléculaires et les textes sémantiquement liés afin de favoriser la compréhension intermodale. Nous fournissons une analyse théorique montrant que notre pré-entraînement intermodal capture les connaissances moléculaires locales et globales en minimisant la distance dans l'espace des caractéristiques entre différentes modalités de la même molécule, ainsi que entre des molécules partageant des structures ou fonctions similaires. MolFM obtient des performances de pointe sur diverses tâches en aval. En matière de récupération intermodale, MolFM surpassent les modèles existants avec des gains absolus respectivement de 12,13 % et 5,04 % sous les conditions zero-shot et fine-tuning. De plus, l'analyse qualitative met en évidence la capacité implicite de MolFM à fournir un ancrage à partir de sous-structures moléculaires et de graphes de connaissances. Le code source et les modèles sont disponibles sur https://github.com/BioFM/OpenBioMed.

MolFM : Un Modèle Fondamental Moléculaire Multimodal | Articles de recherche récents | HyperAI