HyperAIHyperAI

Command Palette

Search for a command to run...

Vers des modèles de VQA capables de lire

Amanpreet Singh; Vivek Natarajan; Meet Shah; Yu Jiang; Xinlei Chen; Dhruv Batra; Devi Parikh; Marcus Rohrbach

Résumé

Des études ont montré qu'une classe dominante de questions posées par les utilisateurs malvoyants sur des images de leur environnement concerne la lecture du texte présent dans ces images. Cependant, les modèles de Q&R visuelle (VQA) actuels ne sont pas capables de lire ! Notre article fait un premier pas vers la résolution de ce problème. Tout d'abord, nous introduisons un nouveau jeu de données « TextVQA » pour faciliter les progrès sur cette question importante. Les jeux de données existants contiennent soit une petite proportion de questions relatives au texte (par exemple, le jeu de données VQA) soit sont trop petits (par exemple, le jeu de données VizWiz). TextVQA comprend 45 336 questions sur 28 408 images qui nécessitent une réflexion sur le texte pour y répondre. Deuxièmement, nous présentons une nouvelle architecture de modèle qui lit le texte dans l'image, raisonne à son sujet en tenant compte du contexte de l'image et de la question, et prédit une réponse qui peut être une déduction basée sur le texte et l'image ou composée des chaînes trouvées dans l'image. Par conséquent, nous appelons notre approche Regarder, Lire, Raisonner & Répondre (Look, Read, Reason & Answer - LoRRA). Nous montrons que LoRRA surpasses les modèles VQA d'avant-garde actuels sur notre jeu de données TextVQA. Nous constatons que l'écart entre la performance humaine et la performance machine est significativement plus grand sur TextVQA que sur VQA 2.0, suggérant que TextVQA est bien adapté pour évaluer les progrès dans des directions complémentaires à celles de VQA 2.0.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp