Lernen hierarchischer Prompts mit strukturiertem sprachlichem Wissen für Vision-Language-Modelle

Prompt Learning ist zu einer etablierten Strategie geworden, um vision-sprachliche Grundmodelle an nachgeschaltete Aufgaben anzupassen. Mit dem Aufkommen großer Sprachmodelle (LLMs) haben jüngste Studien den Einsatz kategorienbezogener Beschreibungen als Eingabe untersucht, um die Wirksamkeit von Prompts zu verbessern. Dennoch erweisen sich herkömmliche Beschreibungen als unzureichend, wenn es darum geht, strukturierte Informationen bereitzustellen, die die Wechselwirkungen zwischen Entitäten oder Attributen einer bestimmten Kategorie effektiv darstellen. Um diese Limitation zu überwinden und den Fokus auf die Nutzung strukturierter Wissensinhalte zu legen, schlagen wir in diesem Artikel vor, LLMs zu nutzen, um für jede Beschreibung einen Graphen aufzubauen, der die Entitäten und Attribute, die die Kategorie beschreiben, sowie deren Korrelationen modelliert. Bestehende Methoden des Prompt-Tunings zeigen Mängel bei der Verarbeitung solcher strukturierter Kenntnisse. Daher präsentieren wir einen neuartigen Ansatz namens Hierarchisches Prompt Tuning (HPT), der die gleichzeitige Modellierung sowohl strukturierter als auch konventioneller sprachlicher Kenntnisse ermöglicht. Insbesondere führen wir ein relationship-gesteuertes Aufmerksamkeitsmodul ein, das Paarwechselwirkungen zwischen Entitäten und Attributen für die niedrigstufige Prompt-Lernung erfassen kann. Zudem integrieren wir hochstufige und globalstufige Prompts, um die Gesamtbedeutung zu modellieren, wodurch die vorgeschlagene hierarchische Struktur Querverbindungen zwischen den Ebenen schafft und das Modell befähigt, komplexere und langfristigere Beziehungen zu verarbeiten. Umfassende Experimente zeigen, dass unser HPT eine starke Wirksamkeit aufweist und sich deutlich besser generalisiert als bestehende State-of-the-Art-Methoden. Unser Code ist unter https://github.com/Vill-Lab/2024-AAAI-HPT verfügbar.