HyperAIHyperAI
il y a 2 mois

Montrer, Demander, Prêter Attention et Répondre : Une Base Solide pour le Questionnement Visuel et les Réponses

Vahid Kazemi; Ali Elqursh
Montrer, Demander, Prêter Attention et Répondre : Une Base Solide pour le Questionnement Visuel et les Réponses
Résumé

Ce document présente une nouvelle référence pour la tâche de réponse à des questions visuelles. Étant donné une image et une question formulée en langage naturel, notre modèle produit des réponses précises en fonction du contenu de l'image. Bien que notre modèle soit architecturalement simple et relativement petit en termes de paramètres entraînables, il établit un nouveau niveau d'excellence sur les benchmarks VQA (Visual Question Answering) déséquilibrés et équilibrés. Sur le défi ouvert VQA 1.0, notre modèle atteint une précision de 64,6 % sur l'ensemble de test standard sans utiliser de données supplémentaires, ce qui représente une amélioration de 0,4 % par rapport à l'état de l'art actuel. Sur le nouvel ensemble de validation VQA 2.0, notre modèle obtient un score de 59,7 %, surpassant les meilleurs résultats précédemment rapportés de 0,5 %. Les résultats présentés dans ce document sont particulièrement intéressants car des modèles très similaires ont été testés auparavant mais avec des performances nettement inférieures. À la lumière de ces nouveaux résultats, nous espérons voir plus de recherches significatives sur la réponse à des questions visuelles dans le futur.

Montrer, Demander, Prêter Attention et Répondre : Une Base Solide pour le Questionnement Visuel et les Réponses | Articles de recherche récents | HyperAI