HPT++: Hierarchisch Prompting von Vision-Sprache-Modellen mit Wissensgenerierung auf mehreren Granularitätsstufen und verbesserter Strukturmodellierung

Prompt Learning ist zu einer etablierten Strategie geworden, um vision-sprachliche Grundmodelle (VLMs), wie beispielsweise CLIP, auf nachgeschaltete Aufgaben anzupassen. Mit dem Aufkommen großer Sprachmodelle (LLMs) haben jüngere Studien das Potenzial untersucht, kategorienbezogene Beschreibungen zur Verbesserung der Effektivität von Prompts einzusetzen. Allerdings fehlen herkömmlichen Beschreibungen explizite strukturierte Informationen, die erforderlich sind, um die Wechselwirkungen zwischen zentralen Elementen – wie Entitäten oder Attributen – im Zusammenhang mit einer bestimmten Kategorie präzise darzustellen. Da bestehende Ansätze zur Prompt-Tuning nur geringfügig strukturiertes Wissen berücksichtigen, befürwortet dieser Artikel die Nutzung von LLMs, um für jede Beschreibung einen Graphen zu konstruieren, um solches strukturierte Wissen gezielt zu priorisieren. Daraus leiten wir einen neuen Ansatz namens Hierarchical Prompt Tuning (HPT) ab, der gleichzeitig strukturiertes und herkömmliches sprachliches Wissen modelliert. Konkret führen wir ein relationship-guided Attention-Modul ein, um paarweise Beziehungen zwischen Entitäten und Attributen für die feinkörnige Prompt-Lernung zu erfassen. Zudem ermöglicht die Integration von hoch- und globalen Prompt-Modellen, die die Gesamtbedeutung erfassen, durch die hierarchische Struktur Querverbindungen zwischen den Ebenen zu schaffen und dem Modell die Fähigkeit zu verleihen, komplexere und langfristigere Beziehungen zu verarbeiten. Schließlich schlagen wir HPT++ vor, indem wir die Generierung von Wissen auf mehreren Granularitätsstufen verbessern, das relationship-getriebene Attention-Re-Weighting-Modul neu gestalten und konsistente Einschränkungen für den hierarchischen Text-Encoder einführen, wodurch die Leistung von HPT weiter gesteigert wird. Unsere Experimente werden in einer Vielzahl von Evaluierungsszenarien durchgeführt, darunter Base-to-New-Verallgemeinerung, Cross-Dataset-Evaluation und Domain-Verallgemeinerung. Umfangreiche Ergebnisse und Ablationsstudien belegen die Wirksamkeit unserer Methoden, die konsistent mit bestehenden State-of-the-Art-Verfahren überlegen sind.