HyperAIHyperAI
vor 2 Monaten

MolFM: Ein multimodales molekulares Grundmodell

Yizhen Luo; Kai Yang; Massimo Hong; Xing Yi Liu; Zaiqing Nie
MolFM: Ein multimodales molekulares Grundmodell
Abstract

Molekulare Kenntnisse sind in drei verschiedenen Informationsquellen enthalten: molekularen Strukturen, biomedizinischen Dokumenten und Wissensbasen. Die effektive Integration von molekularer Kenntnis aus diesen Quellen ist von größter Bedeutung für die Förderung der biomedizinischen Forschung. Bestehende multimodale molekulare Grundmodelle zeigen jedoch Einschränkungen bei der Erfassung komplexer Verbindungen zwischen molekularen Strukturen und Texten, und wichtiger noch, keines von ihnen versucht, das umfangreiche molekulare Fachwissen aus Wissensgraphen zu nutzen. In dieser Studie stellen wir MolFM vor, ein multimodales molekulares Grundmodell, das entwickelt wurde, um gemeinsames Lernen von Darstellungen aus molekularen Strukturen, biomedizinischen Texten und Wissensgraphen zu erleichtern. Wir schlagen eine kreuzmodale Aufmerksamkeit zwischen den Atomen molekularer Strukturen, den Nachbarn von Molekülen und semantisch verwandten Texten vor, um das Kreuzmodalverstehen zu fördern. Wir liefern eine theoretische Analyse, die zeigt, dass unser kreuzmodales Vortraining lokale und globale molekulare Kenntnisse erfasst, indem es den Abstand im Merkmalsraum zwischen verschiedenen Modi desselben Moleküls sowie zwischen Molekülen mit ähnlichen Strukturen oder Funktionen minimiert. MolFM erzielt Spitzenleistungen in verschiedenen nachgeschalteten Aufgaben. Bei der kreuzmodalen Retrieval übertreffen die Ergebnisse von MolFM bestehende Modelle um 12,13 % (zero-shot) und 5,04 % (feinjustiert). Des Weiteren zeigt eine qualitative Analyse die implizite Fähigkeit von MolFM auf, Verankerungen aus molekularen Unterstrukturen und Wissensgraphen bereitzustellen. Der Code und die Modelle sind unter https://github.com/BioFM/OpenBioMed verfügbar.

MolFM: Ein multimodales molekulares Grundmodell | Neueste Forschungsarbeiten | HyperAI