il y a 2 mois

Amélioration du Text-VQA par la génération de questions-réponses visuelles sensibles au texte

Jun Wang; Mingfei Gao; Yuqian Hu; Ramprasaath R. Selvaraju; Chetan Ramaiah; Ran Xu; Joseph F. JaJa; Larry S. Davis

Résumé

Text-VQA vise à répondre aux questions nécessitant une compréhension des indices textuels présents dans une image. Malgré les progrès considérables réalisés par les méthodes actuelles de Text-VQA, leurs performances sont affectées par un nombre insuffisant de paires question-réponse (QR) étiquetées par des humains. Cependant, nous constatons que, en général, le texte de la scène n'est pas pleinement exploité dans les jeux de données existants — seule une petite partie du texte présent dans chaque image participe aux activités QR annotées. Ceci entraîne un gaspillage important d'informations utiles. Pour remédier à cette lacune, nous avons développé une nouvelle méthode permettant de générer des paires QR de haute qualité et diversifiées en utilisant explicitement le texte riche disponible dans le contexte visuel de chaque image. Plus précisément, nous proposons TAG, une architecture générative de questions-réponses visuelles consciente du texte qui apprend à produire des échantillons QR pertinents et précis grâce à un transformateur multimodal. Cette architecture exploite les informations textuelles sous-exploitées de la scène et améliore la compréhension scénique des modèles Text-VQA en combinant les paires QR générées avec les données d'entraînement initiales. Des résultats expérimentaux approfondis sur deux benchmarks bien connus en Text-VQA (TextVQA et ST-VQA) démontrent que notre TAG proposée augmente efficacement l'ensemble des données d'entraînement, ce qui aide à améliorer les performances de Text-VQA sans effort supplémentaire d'étiquetage. De plus, notre modèle surpasse les approches les plus avancées pré-entraînées avec des données à grande échelle supplémentaires. Le code est disponible sur https://github.com/HenryJunW/TAG.