HyperAIHyperAI

Command Palette

Search for a command to run...

SCHLAGWORT: Verbesserung von Text-VQA durch textbasierte visuelle Frage-Antwort-Generierung

Jun Wang Mingfei Gao Yuqian Hu Ramprasaath R. Selvaraju Chetan Ramaiah Ran Xu Joseph F. JaJa Larry S. Davis

Zusammenfassung

Text-VQA zielt darauf ab, Fragen zu beantworten, die ein Verständnis der textuellen Hinweise in einem Bild erfordern. Trotz des großen Fortschritts bei existierenden Text-VQA-Methoden leidet ihre Leistung unter unzureichend vielen von Menschen beschrifteten Frage-Antwort-Paaren (QA). Wir beobachten jedoch, dass im Allgemeinen der Szene-Text in den vorhandenen Datensätzen nicht vollständig genutzt wird – nur ein kleiner Teil des Textes in jedem Bild ist in den annotierten QA-Aktivitäten involviert. Dies führt zu einer riesigen Verschwendung nützlicher Informationen. Um dieses Manko zu beheben, entwickeln wir eine neue Methode zur Generierung hochwertiger und vielfältiger QA-Paare durch explizite Nutzung des reichen Textes, der im Szenenkontext jedes Bildes verfügbar ist. Insbesondere schlagen wir TAG vor, eine textbewusste Architektur zur Generierung visueller Frage-Antwort-Paare, die es lernt, sinnvolle und genaue QA-Beispiele mithilfe eines multimodalen Transformers zu produzieren. Die Architektur nutzt bisher untergenutzte Szenentextinformationen und verbessert das Szenenverständnis von Text-VQA-Modellen, indem sie die generierten QA-Paare mit den ursprünglichen Trainingsdaten kombiniert. Ausführliche experimentelle Ergebnisse auf zwei bekannten Text-VQA-Benchmarks (TextVQA und ST-VQA) zeigen, dass unser vorgeschlagener TAG die Trainingsdaten effektiv erweitert und so die Text-VQA-Leistung ohne zusätzliche Beschriftungsaufwand verbessert. Darüber hinaus übertrifft unser Modell den Stand der Technik, insbesondere solche Ansätze, die mit zusätzlichen groß angelegten Daten prätrainiert wurden. Der Quellcode ist unter https://github.com/HenryJunW/TAG verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp