Command Palette
Search for a command to run...
Adversarial Modality Alignment Network für die cross-modale Molekülsuche
Adversarial Modality Alignment Network für die cross-modale Molekülsuche
Jinjun Chen Kai Zhang Buqing Cao Dong Zhou Wenyu Zhao
Zusammenfassung
Die Aufgabe der multimodalen Molekülabfrage (Text2Mol) zielt darauf ab, die semantische Lücke zwischen Molekülen und natürlichen Sprachbeschreibungen zu schließen. Eine Lösung für dieses anspruchsvolle Problem basiert auf Graph-Convolutional-Netzwerken (GCN), cross-modaler Aufmerksamkeit und kontrastivem Lernen, um sinnvolle Ergebnisse zu erzielen. Es bestehen jedoch folgende Probleme: 1) Die cross-modale Aufmerksamkeitsmechanik ist ausschließlich auf Textrepräsentationen ausgerichtet und liefert keine hilfreichen Informationen für Molekülrepräsentationen. 2) Der auf GCN basierende Molekülenkoder ignoriert Kantenmerkmale sowie die Bedeutung verschiedener Substrukturen eines Moleküls. 3) Die Retrieval-Lernverlustfunktion ist zu vereinfacht. In dieser Arbeit untersuchen wir das Text2Mol-Problem weitergehend und stellen eine neuartige Methode auf Basis eines adversarialen Modality-Alignment-Netzwerks (AMAN) vor, um sowohl Beschreibungs- als auch Molekülinformationen ausreichend zu lernen. Unsere Methode nutzt einen SciBERT als Textenkoder und ein Graph-Transformer-Netzwerk als Molekülenkoder zur Generierung multimodaler Repräsentationen. Anschließend wird ein adversariales Netzwerk eingesetzt, um diese Modalitäten interaktiv auszurichten. Gleichzeitig wird eine Triplet-Verlustfunktion verwendet, um das Retrieval-Lernen durchzuführen und die Modality-Ausrichtung weiter zu verbessern. Experimente auf dem ChEBI-20-Datensatz belegen die Wirksamkeit unserer AMAN-Methode im Vergleich zu etablierten Baselines.