HyperAIHyperAI

Command Palette

Search for a command to run...

Zu VQA-Modellen, die lesen können

Amanpreet Singh; Vivek Natarajan; Meet Shah; Yu Jiang; Xinlei Chen; Dhruv Batra; Devi Parikh; Marcus Rohrbach

Zusammenfassung

Studien haben gezeigt, dass eine dominante Klasse von Fragen, die visuell beeinträchtigte Benutzer über Bilder ihrer Umgebung stellen, das Lesen von Text in diesen Bildern umfasst. Heutige VQA-Modelle können jedoch nicht lesen! Unser Papier macht einen ersten Schritt zur Bewältigung dieses Problems. Zunächst führen wir einen neuen „TextVQA“-Datensatz ein, um den Fortschritt bei dieser wichtigen Fragestellung zu fördern. Bestehende Datensätze enthalten entweder nur einen geringen Anteil an Fragen zum Text (z.B. der VQA-Datensatz) oder sind zu klein (z.B. der VizWiz-Datensatz). Der TextVQA-Datensatz enthält 45.336 Fragen zu 28.408 Bildern, die das Verständnis von Text erfordern, um beantwortet werden zu können. Zweitens präsentieren wir eine neuartige Modellarchitektur, die Text in Bildern liest, ihn im Kontext des Bildes und der Frage analysiert und eine Antwort vorhersagt, die entweder auf einer Schlussfolgerung basiert, die aus Text und Bild gezogen wird, oder aus Zeichenketten besteht, die im Bild gefunden wurden. Daher nennen wir unseren Ansatz Look, Read, Reason & Answer (LoRRA). Wir zeigen, dass LoRRA bestehende state-of-the-art-VQA-Modelle auf unserem TextVQA-Datensatz übertreffen kann. Wir feststellen, dass der Leistungsunterschied zwischen menschlicher und maschineller Leistung auf dem TextVQA-Datensatz deutlich größer ist als auf VQA 2.0, was darauf hindeutet, dass TextVQA gut geeignet ist, den Fortschritt in Richtungen zu bewerten, die sich ergänzend zu VQA 2.0 entwickeln.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp