vor 11 Tagen

Was Sie sehen, ist, was Sie lesen? Verbesserung der Text-Bild-Ausrichtungs-Evaluation

Michal Yarom, Yonatan Bitton, Soravit Changpinyo, Roee Aharoni, Jonathan Herzig, Oran Lang, Eran Ofek, Idan Szpektor

Abstract

Die automatische Bestimmung, ob ein Text und ein entsprechendes Bild semantisch ausgerichtet sind, stellt eine bedeutende Herausforderung für visuell-sprachliche Modelle dar und hat Anwendungen in generativen Text-zu-Bild- sowie Bild-zu-Text-Aufgaben. In dieser Arbeit untersuchen wir Methoden zur automatischen Bewertung der Text-Bild-Ausrichtung. Zunächst stellen wir SeeTRUE vor: eine umfassende Evaluierungsdatenbank, die mehrere Datensätze aus sowohl Text-zu-Bild- als auch Bild-zu-Text-Generierungsaufgaben abdeckt und menschliche Urteile enthält, ob ein gegebenes Text-Bild-Paar semantisch ausgerichtet ist. Anschließend beschreiben wir zwei automatische Ansätze zur Bestimmung der Ausrichtung: Der erste basiert auf einem Pipeline-Ansatz, der Frageerzeugungs- und visuelle Fragenbeantwortungsmodelle nutzt, während der zweite einen end-to-end-Klassifikationsansatz verfolgt, der durch Feintuning multimodaler vortrainierter Modelle realisiert wird. Beide Methoden übersteigen in verschiedenen Text-Bild-Ausrichtungsaufgaben die vorherigen Ansätze, wobei insbesondere bei anspruchsvollen Fällen mit komplexer Komposition oder unnatürlichen Bildern signifikante Verbesserungen erzielt werden. Schließlich zeigen wir, wie unsere Ansätze zur Lokalisierung spezifischer Ausrichtungsfehler zwischen einem Bild und einem gegebenen Text eingesetzt werden können und wie sie zur automatischen Neubewertung von Kandidaten in Text-zu-Bild-Generierung genutzt werden können.