HyperAIHyperAI

Command Palette

Search for a command to run...

Einfache Token-Level-Vertrauenswürdigkeit verbessert die Korrektheit von Bildunterschriften

Suzanne Petryk Spencer Whitehead Joseph E. Gonzalez Trevor Darrell Anna Rohrbach Marcus Rohrbach

Zusammenfassung

Die Fähigkeit, beurteilen zu können, ob eine Bildunterschrift eine Abbildung korrekt beschreibt, ist ein entscheidender Bestandteil des vision-sprachlichen Verständnisses. Allerdings interpretieren state-of-the-art-Modelle oft die Richtigkeit feinabgestufter Details falsch, was zu Fehlern in den Ausgaben führt, wie beispielsweise der Halluzination von Objekten in generierten Beschreibungen oder einer schlechten kompositionellen Schlussfolgerung. In dieser Arbeit untersuchen wir Token-Level Confidence (TLC) als eine einfache, jedoch überraschend wirksame Methode zur Beurteilung der Korrektheit von Bildunterschriften. Konkret feinjustieren wir ein vision-sprachliches Modell für die Bildbeschreibung, geben ein Bild und eine vorgeschlagene Unterschrift als Eingabe ein und aggregieren entweder algebraische oder gelernte Token-Vertrauenswerte über Wörter oder Sequenzen, um die Konsistenz zwischen Bild und Beschreibung zu schätzen. Im Vergleich zu sequenzweiten Scores von vortrainierten Modellen erreicht TLC mit algebraischen Vertrauensmaßen eine relative Verbesserung der Genauigkeit um 10 % bei der Verstehensleistung von Verben in SVO-Probes und übertrifft die vorherigen state-of-the-art-Ergebnisse bei den Bild- und Gruppenscores für kompositionelle Schlussfolgerung in Winoground um jeweils 37 % und 9 %. Bei verfügbarer Trainingsdaten liefert ein gelernter Vertrauensschätzer zusätzliche Leistungssteigerungen und senkt die Rate von Objekthalluzinationen in MS COCO Captions gegenüber dem ursprünglichen Modell um 30 % relativ und erreicht damit eine neue state-of-the-art-Leistung.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Einfache Token-Level-Vertrauenswürdigkeit verbessert die Korrektheit von Bildunterschriften | Paper | HyperAI