HyperAIHyperAI
vor 11 Tagen

Einfache Token-Level-Vertrauenswürdigkeit verbessert die Korrektheit von Bildunterschriften

Suzanne Petryk, Spencer Whitehead, Joseph E. Gonzalez, Trevor Darrell, Anna Rohrbach, Marcus Rohrbach
Einfache Token-Level-Vertrauenswürdigkeit verbessert die Korrektheit von Bildunterschriften
Abstract

Die Fähigkeit, beurteilen zu können, ob eine Bildunterschrift eine Abbildung korrekt beschreibt, ist ein entscheidender Bestandteil des vision-sprachlichen Verständnisses. Allerdings interpretieren state-of-the-art-Modelle oft die Richtigkeit feinabgestufter Details falsch, was zu Fehlern in den Ausgaben führt, wie beispielsweise der Halluzination von Objekten in generierten Beschreibungen oder einer schlechten kompositionellen Schlussfolgerung. In dieser Arbeit untersuchen wir Token-Level Confidence (TLC) als eine einfache, jedoch überraschend wirksame Methode zur Beurteilung der Korrektheit von Bildunterschriften. Konkret feinjustieren wir ein vision-sprachliches Modell für die Bildbeschreibung, geben ein Bild und eine vorgeschlagene Unterschrift als Eingabe ein und aggregieren entweder algebraische oder gelernte Token-Vertrauenswerte über Wörter oder Sequenzen, um die Konsistenz zwischen Bild und Beschreibung zu schätzen. Im Vergleich zu sequenzweiten Scores von vortrainierten Modellen erreicht TLC mit algebraischen Vertrauensmaßen eine relative Verbesserung der Genauigkeit um 10 % bei der Verstehensleistung von Verben in SVO-Probes und übertrifft die vorherigen state-of-the-art-Ergebnisse bei den Bild- und Gruppenscores für kompositionelle Schlussfolgerung in Winoground um jeweils 37 % und 9 %. Bei verfügbarer Trainingsdaten liefert ein gelernter Vertrauensschätzer zusätzliche Leistungssteigerungen und senkt die Rate von Objekthalluzinationen in MS COCO Captions gegenüber dem ursprünglichen Modell um 30 % relativ und erreicht damit eine neue state-of-the-art-Leistung.

Einfache Token-Level-Vertrauenswürdigkeit verbessert die Korrektheit von Bildunterschriften | Neueste Forschungsarbeiten | HyperAI