SCHLAGWORT: Verbesserung von Text-VQA durch textbasierte visuelle Frage-Antwort-Generierung

Text-VQA zielt darauf ab, Fragen zu beantworten, die ein Verständnis der textuellen Hinweise in einem Bild erfordern. Trotz des großen Fortschritts bei existierenden Text-VQA-Methoden leidet ihre Leistung unter unzureichend vielen von Menschen beschrifteten Frage-Antwort-Paaren (QA). Wir beobachten jedoch, dass im Allgemeinen der Szene-Text in den vorhandenen Datensätzen nicht vollständig genutzt wird – nur ein kleiner Teil des Textes in jedem Bild ist in den annotierten QA-Aktivitäten involviert. Dies führt zu einer riesigen Verschwendung nützlicher Informationen. Um dieses Manko zu beheben, entwickeln wir eine neue Methode zur Generierung hochwertiger und vielfältiger QA-Paare durch explizite Nutzung des reichen Textes, der im Szenenkontext jedes Bildes verfügbar ist. Insbesondere schlagen wir TAG vor, eine textbewusste Architektur zur Generierung visueller Frage-Antwort-Paare, die es lernt, sinnvolle und genaue QA-Beispiele mithilfe eines multimodalen Transformers zu produzieren. Die Architektur nutzt bisher untergenutzte Szenentextinformationen und verbessert das Szenenverständnis von Text-VQA-Modellen, indem sie die generierten QA-Paare mit den ursprünglichen Trainingsdaten kombiniert. Ausführliche experimentelle Ergebnisse auf zwei bekannten Text-VQA-Benchmarks (TextVQA und ST-VQA) zeigen, dass unser vorgeschlagener TAG die Trainingsdaten effektiv erweitert und so die Text-VQA-Leistung ohne zusätzliche Beschriftungsaufwand verbessert. Darüber hinaus übertrifft unser Modell den Stand der Technik, insbesondere solche Ansätze, die mit zusätzlichen groß angelegten Daten prätrainiert wurden. Der Quellcode ist unter https://github.com/HenryJunW/TAG verfügbar.