HyperAIHyperAI
vor 11 Tagen

Prompting von großen Vision-Sprach-Modellen zur kompositionellen Reasoning

Timothy Ossowski, Ming Jiang, Junjie Hu
Prompting von großen Vision-Sprach-Modellen zur kompositionellen Reasoning
Abstract

Vision-Sprache-Modelle wie CLIP haben beeindruckende Fähigkeiten bei der Kodierung von Texten und Bildern in ausgerichtete Embeddings gezeigt, was die Abfrage multimodaler Daten in einem gemeinsamen Embedding-Raum ermöglicht. Dennoch stoßen diese auf Embeddings basierenden Modelle weiterhin auf Schwierigkeiten, Bilder und Texte mit ähnlicher visuo-linguistischer Komposition effektiv zu verknüpfen, wie ihre Leistung auf dem jüngsten Winoground-Datensatz belegt. In diesem Paper argumentieren wir, dass diese Einschränkung auf zwei Faktoren zurückzuführen ist: die Verwendung einzelner Vektorrepräsentationen für komplexe multimodale Daten sowie das Fehlen schrittweiser Schlussfolgerungen in diesen Embedding-basierten Ansätzen. Um dieses Problem anzugehen, unternehmen wir einen explorativen Schritt mittels einer neuartigen generativen Methode, die große Vision-Sprache-Modelle (z. B. GPT-4) dazu anleitet, Bilder zu beschreiben und kompositionelle Schlussfolgerungen zu ziehen. Unsere Methode übertrifft andere Embedding-basierte Ansätze auf dem Winoground-Datensatz und erreicht bei optimaler Beschreibung zusätzliche Verbesserungen von bis zu 10 % in der Genauigkeit.

Prompting von großen Vision-Sprach-Modellen zur kompositionellen Reasoning | Neueste Forschungsarbeiten | HyperAI