Command Palette
Search for a command to run...
Zu VQA-Modellen, die lesen können
Zu VQA-Modellen, die lesen können
Amanpreet Singh; Vivek Natarajan; Meet Shah; Yu Jiang; Xinlei Chen; Dhruv Batra; Devi Parikh; Marcus Rohrbach
Zusammenfassung
Studien haben gezeigt, dass eine dominante Klasse von Fragen, die visuell beeinträchtigte Benutzer über Bilder ihrer Umgebung stellen, das Lesen von Text in diesen Bildern umfasst. Heutige VQA-Modelle können jedoch nicht lesen! Unser Papier macht einen ersten Schritt zur Bewältigung dieses Problems. Zunächst führen wir einen neuen „TextVQA“-Datensatz ein, um den Fortschritt bei dieser wichtigen Fragestellung zu fördern. Bestehende Datensätze enthalten entweder nur einen geringen Anteil an Fragen zum Text (z.B. der VQA-Datensatz) oder sind zu klein (z.B. der VizWiz-Datensatz). Der TextVQA-Datensatz enthält 45.336 Fragen zu 28.408 Bildern, die das Verständnis von Text erfordern, um beantwortet werden zu können. Zweitens präsentieren wir eine neuartige Modellarchitektur, die Text in Bildern liest, ihn im Kontext des Bildes und der Frage analysiert und eine Antwort vorhersagt, die entweder auf einer Schlussfolgerung basiert, die aus Text und Bild gezogen wird, oder aus Zeichenketten besteht, die im Bild gefunden wurden. Daher nennen wir unseren Ansatz Look, Read, Reason & Answer (LoRRA). Wir zeigen, dass LoRRA bestehende state-of-the-art-VQA-Modelle auf unserem TextVQA-Datensatz übertreffen kann. Wir feststellen, dass der Leistungsunterschied zwischen menschlicher und maschineller Leistung auf dem TextVQA-Datensatz deutlich größer ist als auf VQA 2.0, was darauf hindeutet, dass TextVQA gut geeignet ist, den Fortschritt in Richtungen zu bewerten, die sich ergänzend zu VQA 2.0 entwickeln.