HyperAIHyperAI

Command Palette

Search for a command to run...

Mol2Lang-VLM: Vision- und Textgesteuerte generative vortrainierte Sprachmodelle zur Weiterentwicklung der Molekülbildunterschrift durch multimodale Fusion

and Balachandran Manavalan Nguyen Nguyen Nhat Truong Pham Duong Tran

Zusammenfassung

Diese Arbeit stellt Mol2Lang-VLM vor, eine verbesserte Methode zur Feinjustierung generativer vortrainierter Sprachmodelle für die Molekülbeschreibung unter Verwendung multimodaler Merkmale, um präzisere Beschreibungsgenerierung zu erreichen. Unser Ansatz nutzt die Encoder- und Decoder-Blöcke der Transformer-basierten Architektur, indem jeweils zusätzliche Subschichten eingefügt werden. Konkret werden im Encoder Subschichten eingefügt, um Merkmale aus SELFIES-Zeichenketten und molekularen Bildern zu fusionieren, während der Decoder Merkmale aus SMILES-Zeichenketten und deren entsprechenden Beschreibungen integriert. Zudem wird statt der herkömmlichen Multi-Head-Attention eine Kreuz-Multi-Head-Attention eingesetzt, um dem Decoder zu ermöglichen, sich auf die Ausgabe des Encoders zu konzentrieren, wodurch kontextuelle Informationen effektiv integriert werden, um genauere und qualitativ hochwertigere Beschreibungen zu generieren. Die Leistungsbewertung auf den Benchmark-Datensätzen CheBI-20 und L+M-24 zeigt die Überlegenheit von Mol2Lang-VLM im Vergleich zu bestehenden Methoden, wobei höhere Genauigkeit und Qualität bei der Beschreibungsgenerierung erreicht werden. Unser Quellcode und die vorgeverarbeiteten Daten sind unter https://github.com/nhattruongpham/mol-lang-bridge/tree/mol2lang/ verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Mol2Lang-VLM: Vision- und Textgesteuerte generative vortrainierte Sprachmodelle zur Weiterentwicklung der Molekülbildunterschrift durch multimodale Fusion | Paper | HyperAI