HyperAIHyperAI

Command Palette

Search for a command to run...

Amélioration du Text-VQA par la génération de questions-réponses visuelles sensibles au texte

Jun Wang Mingfei Gao Yuqian Hu Ramprasaath R. Selvaraju Chetan Ramaiah Ran Xu Joseph F. JaJa Larry S. Davis

Résumé

Text-VQA vise à répondre aux questions nécessitant une compréhension des indices textuels présents dans une image. Malgré les progrès considérables réalisés par les méthodes actuelles de Text-VQA, leurs performances sont affectées par un nombre insuffisant de paires question-réponse (QR) étiquetées par des humains. Cependant, nous constatons que, en général, le texte de la scène n'est pas pleinement exploité dans les jeux de données existants — seule une petite partie du texte présent dans chaque image participe aux activités QR annotées. Ceci entraîne un gaspillage important d'informations utiles. Pour remédier à cette lacune, nous avons développé une nouvelle méthode permettant de générer des paires QR de haute qualité et diversifiées en utilisant explicitement le texte riche disponible dans le contexte visuel de chaque image. Plus précisément, nous proposons TAG, une architecture générative de questions-réponses visuelles consciente du texte qui apprend à produire des échantillons QR pertinents et précis grâce à un transformateur multimodal. Cette architecture exploite les informations textuelles sous-exploitées de la scène et améliore la compréhension scénique des modèles Text-VQA en combinant les paires QR générées avec les données d'entraînement initiales. Des résultats expérimentaux approfondis sur deux benchmarks bien connus en Text-VQA (TextVQA et ST-VQA) démontrent que notre TAG proposée augmente efficacement l'ensemble des données d'entraînement, ce qui aide à améliorer les performances de Text-VQA sans effort supplémentaire d'étiquetage. De plus, notre modèle surpasse les approches les plus avancées pré-entraînées avec des données à grande échelle supplémentaires. Le code est disponible sur https://github.com/HenryJunW/TAG.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Amélioration du Text-VQA par la génération de questions-réponses visuelles sensibles au texte | Articles | HyperAI