HyperAIHyperAI
il y a 2 mois

Apprendre à Compter les Objets dans les Images Naturelles pour la Réponse aux Questions Visuelles

Yan Zhang; Jonathon Hare; Adam Prügel-Bennett
Apprendre à Compter les Objets dans les Images Naturelles pour la Réponse aux Questions Visuelles
Résumé

Les modèles de Visual Question Answering (VQA) ont jusqu'à présent rencontré des difficultés pour compter les objets dans des images naturelles. Nous identifions un problème fondamental dû à l'attention douce dans ces modèles comme étant la cause. Pour contourner ce problème, nous proposons un composant de réseau neuronal qui permet un comptage robuste à partir de propositions d'objets. Des expériences sur une tâche simplifiée montrent l'efficacité de ce composant, et nous obtenons une précision de pointe sur la catégorie nombre du jeu de données VQA v2 sans affecter négativement les autres catégories, surpassant même les modèles ensemblistes avec notre modèle unique. Sur une métrique difficile et équilibrée de paires, le composant apporte une amélioration substantielle dans le comptage par rapport à une ligne de base solide, avec une augmentation de 6,6 %.