MolCA: Molekulargraphen-Sprachmodellierung mit Kreuzmodalprojektor und Unimodaladapter

Sprachmodelle (LMs) haben bei verschiedenen eindimensionalen textbezogenen Aufgaben eine beeindruckende Fähigkeit zur Molekülbewertung gezeigt. Allerdings fehlt ihnen inhärent die zweidimensionale Graph-Wahrnehmung – eine entscheidende Fähigkeit von menschlichen Fachkräften beim Verstehen der topologischen Strukturen von Molekülen. Um diese Lücke zu schließen, schlagen wir MolCA vor: Modellierung von Molekül-Graphen und -Texten mit einem Kreuzmodalen Projektor und einem Unimodalen Adapter. MolCA ermöglicht es einem Sprachmodell (z.B. Galactica), sowohl textbasierte als auch graphbasierte molekulare Inhalte durch den Kreuzmodalen Projektor zu verstehen. Insbesondere wird der Kreuzmodale Projektor als Q-Former implementiert, um den Repräsentationsraum eines Graphencoders mit dem Textraum eines Sprachmodells zu verbinden. Darüber hinaus verwendet MolCA einen unimodalen Adapter (d.h., LoRA) für die effiziente Anpassung des Sprachmodells an nachgelagerte Aufgaben. Im Gegensatz zu früheren Studien, die ein Sprachmodell durch kreuzmodales kontrastives Lernen mit einem Graphencoder koppeln, behält MolCA die Fähigkeit des Sprachmodells zur offenen Textgenerierung und erweitert sie um zweidimensionale Graphinformationen. Um seine Effektivität zu demonstrieren, evaluieren wir MolCA ausführlich anhand von Aufgaben wie der Erstellung von Moleküldescriptions, der Vorhersage von IUPAC-Namen und der Molekül-Text-Retrieval, bei denen MolCA die Baseline-Modelle deutlich übertrifft. Unsere Codes und Checkpoints sind unter https://github.com/acharkq/MolCA abrufbar.