Mol2Lang-VLM: Vision- und Textgesteuerte generative vortrainierte Sprachmodelle zur Weiterentwicklung der Molekülbildunterschrift durch multimodale Fusion

Diese Arbeit stellt Mol2Lang-VLM vor, eine verbesserte Methode zur Feinjustierung generativer vortrainierter Sprachmodelle für die Molekülbeschreibung unter Verwendung multimodaler Merkmale, um präzisere Beschreibungsgenerierung zu erreichen. Unser Ansatz nutzt die Encoder- und Decoder-Blöcke der Transformer-basierten Architektur, indem jeweils zusätzliche Subschichten eingefügt werden. Konkret werden im Encoder Subschichten eingefügt, um Merkmale aus SELFIES-Zeichenketten und molekularen Bildern zu fusionieren, während der Decoder Merkmale aus SMILES-Zeichenketten und deren entsprechenden Beschreibungen integriert. Zudem wird statt der herkömmlichen Multi-Head-Attention eine Kreuz-Multi-Head-Attention eingesetzt, um dem Decoder zu ermöglichen, sich auf die Ausgabe des Encoders zu konzentrieren, wodurch kontextuelle Informationen effektiv integriert werden, um genauere und qualitativ hochwertigere Beschreibungen zu generieren. Die Leistungsbewertung auf den Benchmark-Datensätzen CheBI-20 und L+M-24 zeigt die Überlegenheit von Mol2Lang-VLM im Vergleich zu bestehenden Methoden, wobei höhere Genauigkeit und Qualität bei der Beschreibungsgenerierung erreicht werden. Unser Quellcode und die vorgeverarbeiteten Daten sind unter https://github.com/nhattruongpham/mol-lang-bridge/tree/mol2lang/ verfügbar.