vor 6 Monaten

Zusammenfassung

Die Fähigkeit, beurteilen zu können, ob eine Bildunterschrift eine Abbildung korrekt beschreibt, ist ein entscheidender Bestandteil des vision-sprachlichen Verständnisses. Allerdings interpretieren state-of-the-art-Modelle oft die Richtigkeit feinabgestufter Details falsch, was zu Fehlern in den Ausgaben führt, wie beispielsweise der Halluzination von Objekten in generierten Beschreibungen oder einer schlechten kompositionellen Schlussfolgerung. In dieser Arbeit untersuchen wir Token-Level Confidence (TLC) als eine einfache, jedoch überraschend wirksame Methode zur Beurteilung der Korrektheit von Bildunterschriften. Konkret feinjustieren wir ein vision-sprachliches Modell für die Bildbeschreibung, geben ein Bild und eine vorgeschlagene Unterschrift als Eingabe ein und aggregieren entweder algebraische oder gelernte Token-Vertrauenswerte über Wörter oder Sequenzen, um die Konsistenz zwischen Bild und Beschreibung zu schätzen. Im Vergleich zu sequenzweiten Scores von vortrainierten Modellen erreicht TLC mit algebraischen Vertrauensmaßen eine relative Verbesserung der Genauigkeit um 10 % bei der Verstehensleistung von Verben in SVO-Probes und übertrifft die vorherigen state-of-the-art-Ergebnisse bei den Bild- und Gruppenscores für kompositionelle Schlussfolgerung in Winoground um jeweils 37 % und 9 %. Bei verfügbarer Trainingsdaten liefert ein gelernter Vertrauensschätzer zusätzliche Leistungssteigerungen und senkt die Rate von Objekthalluzinationen in MS COCO Captions gegenüber dem ursprünglichen Modell um 30 % relativ und erreicht damit eine neue state-of-the-art-Leistung.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 6 Monaten

Bildbeschreibung

Multimodal

Natürliche Sprachverarbeitung

Multimodal

Aufgabe

Suzanne Petryk Spencer Whitehead Joseph E. Gonzalez Trevor Darrell Anna Rohrbach Marcus Rohrbach

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 6 Monaten

Bildbeschreibung

Multimodal

Natürliche Sprachverarbeitung

Multimodal

Aufgabe

Suzanne Petryk Spencer Whitehead Joseph E. Gonzalez Trevor Darrell Anna Rohrbach Marcus Rohrbach

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Einfache Token-Level-Vertrauenswürdigkeit verbessert die Korrektheit von Bildunterschriften

Suzanne Petryk Spencer Whitehead Joseph E. Gonzalez Trevor Darrell Anna Rohrbach Marcus Rohrbach

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Einfache Token-Level-Vertrauenswürdigkeit verbessert die Korrektheit von Bildunterschriften

Suzanne Petryk Spencer Whitehead Joseph E. Gonzalez Trevor Darrell Anna Rohrbach Marcus Rohrbach

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Einfache Token-Level-Vertrauenswürdigkeit verbessert die Korrektheit von Bildunterschriften

Suzanne Petryk Spencer Whitehead Joseph E. Gonzalez Trevor Darrell Anna Rohrbach Marcus Rohrbach

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters