HyperAIHyperAI

Command Palette

Search for a command to run...

Was Sie sehen, ist, was Sie lesen? Verbesserung der Text-Bild-Ausrichtungs-Evaluation

Michal Yarom Yonatan Bitton Soravit Changpinyo Roee Aharoni Jonathan Herzig Oran Lang Eran Ofek Idan Szpektor

Zusammenfassung

Die automatische Bestimmung, ob ein Text und ein entsprechendes Bild semantisch ausgerichtet sind, stellt eine bedeutende Herausforderung für visuell-sprachliche Modelle dar und hat Anwendungen in generativen Text-zu-Bild- sowie Bild-zu-Text-Aufgaben. In dieser Arbeit untersuchen wir Methoden zur automatischen Bewertung der Text-Bild-Ausrichtung. Zunächst stellen wir SeeTRUE vor: eine umfassende Evaluierungsdatenbank, die mehrere Datensätze aus sowohl Text-zu-Bild- als auch Bild-zu-Text-Generierungsaufgaben abdeckt und menschliche Urteile enthält, ob ein gegebenes Text-Bild-Paar semantisch ausgerichtet ist. Anschließend beschreiben wir zwei automatische Ansätze zur Bestimmung der Ausrichtung: Der erste basiert auf einem Pipeline-Ansatz, der Frageerzeugungs- und visuelle Fragenbeantwortungsmodelle nutzt, während der zweite einen end-to-end-Klassifikationsansatz verfolgt, der durch Feintuning multimodaler vortrainierter Modelle realisiert wird. Beide Methoden übersteigen in verschiedenen Text-Bild-Ausrichtungsaufgaben die vorherigen Ansätze, wobei insbesondere bei anspruchsvollen Fällen mit komplexer Komposition oder unnatürlichen Bildern signifikante Verbesserungen erzielt werden. Schließlich zeigen wir, wie unsere Ansätze zur Lokalisierung spezifischer Ausrichtungsfehler zwischen einem Bild und einem gegebenen Text eingesetzt werden können und wie sie zur automatischen Neubewertung von Kandidaten in Text-zu-Bild-Generierung genutzt werden können.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Was Sie sehen, ist, was Sie lesen? Verbesserung der Text-Bild-Ausrichtungs-Evaluation | Paper | HyperAI