HyperAIHyperAI

Command Palette

Search for a command to run...

Prompting von großen Vision-Sprach-Modellen zur kompositionellen Reasoning

Timothy Ossowski Ming Jiang Junjie Hu

Zusammenfassung

Vision-Sprache-Modelle wie CLIP haben beeindruckende Fähigkeiten bei der Kodierung von Texten und Bildern in ausgerichtete Embeddings gezeigt, was die Abfrage multimodaler Daten in einem gemeinsamen Embedding-Raum ermöglicht. Dennoch stoßen diese auf Embeddings basierenden Modelle weiterhin auf Schwierigkeiten, Bilder und Texte mit ähnlicher visuo-linguistischer Komposition effektiv zu verknüpfen, wie ihre Leistung auf dem jüngsten Winoground-Datensatz belegt. In diesem Paper argumentieren wir, dass diese Einschränkung auf zwei Faktoren zurückzuführen ist: die Verwendung einzelner Vektorrepräsentationen für komplexe multimodale Daten sowie das Fehlen schrittweiser Schlussfolgerungen in diesen Embedding-basierten Ansätzen. Um dieses Problem anzugehen, unternehmen wir einen explorativen Schritt mittels einer neuartigen generativen Methode, die große Vision-Sprache-Modelle (z. B. GPT-4) dazu anleitet, Bilder zu beschreiben und kompositionelle Schlussfolgerungen zu ziehen. Unsere Methode übertrifft andere Embedding-basierte Ansätze auf dem Winoground-Datensatz und erreicht bei optimaler Beschreibung zusätzliche Verbesserungen von bis zu 10 % in der Genauigkeit.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp