HyperAIHyperAI
vor 2 Monaten

Visuelles Entailment: Eine neue Aufgabe für die feingranulare Bildverstehensanalyse

Ning Xie; Farley Lai; Derek Doran; Asim Kadav
Visuelles Entailment: Eine neue Aufgabe für die feingranulare Bildverstehensanalyse
Abstract

Bestehende visuelle Inferenzdatensätze wie Visual Question Answering (VQA) leiden oft unter Verzerrungen, die auf der Verteilung von Fragen, Bildern oder Antworten basieren. Der kürzlich vorgeschlagene CLEVR-Datensatz behebt diese Einschränkungen und erfordert feingranulare Inferenz, besteht jedoch aus synthetischen Daten und umfasst über den gesamten Datensatz hinweg ähnliche Objekte und Satzstrukturen.In dieser Arbeit stellen wir eine neue Inferenzaufgabe vor: Visual Entailment (VE) – bestehend aus Bild-Satz-Paaren, bei denen die Prämisse durch ein Bild definiert wird, im Gegensatz zu einem natürlichsprachlichen Satz in traditionellen Textual Entailment-Aufgaben. Das Ziel eines trainierten VE-Modells ist es, vorherzusagen, ob das Bild die Textinformation semantisch impliziert. Um diese Aufgabe zu realisieren, erstellen wir einen Datensatz namens SNLI-VE, der auf dem Stanford Natural Language Inference-Korpus und dem Flickr30k-Datensatz basiert. Wir evaluieren verschiedene existierende VQA-Baselines und entwickeln ein Modell namens Explainable Visual Entailment (EVE)-System zur Bearbeitung der VE-Aufgabe. Das EVE-System erreicht bis zu 71 % Genauigkeit und übertrifft mehrere andere state-of-the-art VQA-basierte Modelle. Schließlich demonstrieren wir die Erklärbarkeit des EVE-Systems durch visuelle Darstellungen von cross-modalem Aufmerksamkeitsverhalten. Der SNLI-VE-Datensatz ist öffentlich verfügbar unter https://github.com/necla-ml/SNLI-VE.

Visuelles Entailment: Eine neue Aufgabe für die feingranulare Bildverstehensanalyse | Neueste Forschungsarbeiten | HyperAI