GIT-Mol: Ein mehrmodaler großer Sprachmodell für die Molekularwissenschaft mit Graphen, Bildern und Text

Große Sprachmodelle haben in der natürlichen Sprachverarbeitung erhebliche Fortschritte gemacht und ermöglichen innovative Anwendungen in der Molekülwissenschaft durch die Verarbeitung textbasierter Darstellungen von Molekülen. Dennoch sind die meisten existierenden Sprachmodelle nicht in der Lage, die reichhaltigen Informationen mit komplexen molekularen Strukturen oder Bildern zu erfassen. In dieser Arbeit stellen wir GIT-Mol vor, ein multimodales großes Sprachmodell, das Graph-, Bild- und Textinformationen integriert. Um die Integration multimodalitätser Molekülendaten zu erleichtern, schlagen wir GIT-Former vor, eine neuartige Architektur, die alle Modalitäten in einen einheitlichen latente Raum ausrichten kann. Wir erreichen eine Genauigkeitssteigerung von 5-10 % bei Eigenschaftsvorhersagen und eine Verbesserung der Gültigkeit von Molekülerzeugung um 20,2 % im Vergleich zu den Baselines. Durch die any-to-language-Molekülotranslation-Strategie hat unser Modell das Potenzial, weitere Downstream-Aufgaben wie Verbindungsnamenerkennung und Vorhersage chemischer Reaktionen durchzuführen.请注意,"any-to-language molecular translation strategy" 是一个较新的术语,因此在德语译文中保留了英文原词 "any-to-language" 并添加了注释 (any-to-language)。同样,“downstream tasks” 也被直接翻译为 “Downstream-Aufgaben”,以保持专业性和信息完整性。