HyperAIHyperAI
il y a 17 jours

En défense des caractéristiques grille pour la réponse aux questions visuelles

Huaizu Jiang, Ishan Misra, Marcus Rohrbach, Erik Learned-Miller, Xinlei Chen
En défense des caractéristiques grille pour la réponse aux questions visuelles
Résumé

Popularisées sous le nom d’attention « bottom-up », les caractéristiques visuelles basées sur des boîtes englobantes (ou régions) ont récemment dépassé les caractéristiques convolutionnelles basées sur une grille brute en tant que standard de facto pour des tâches visuelles et linguistiques telles que la réponse à des questions visuelles (VQA). Toutefois, il n’est pas clair si les avantages des régions (par exemple, une localisation améliorée) sont les principales raisons du succès de l’attention bottom-up. Dans cet article, nous réexaminons les caractéristiques basées sur la grille pour la VQA, et constatons qu’elles peuvent fonctionner de manière étonnamment efficace — en étant plus de dix fois plus rapides tout en maintenant la même précision (par exemple, lorsqu’elles sont pré-entraînées de manière similaire). À travers des expériences étendues, nous confirmons que cette observation est valable quel que soit le modèle VQA utilisé (obtenant une précision de pointe sur le test-std de VQA 2.0, à 72,71), les jeux de données, et se généralise bien à d’autres tâches telles que la génération de légendes d’images. Étant donné que les caractéristiques basées sur la grille simplifient considérablement la conception et le processus d’entraînement des modèles, elles permettent un entraînement end-to-end ainsi qu’une architecture réseau plus flexible. Nous entraînons les modèles VQA de manière end-to-end, directement à partir des pixels jusqu’aux réponses, et démontrons qu’une performance élevée est atteignable sans utiliser aucune annotation de région lors de la phase de pré-entraînement. Nous espérons que nos résultats contribueront à approfondir la compréhension scientifique et à améliorer l’application pratique de la VQA. Le code et les caractéristiques seront rendus disponibles.

En défense des caractéristiques grille pour la réponse aux questions visuelles | Articles de recherche récents | HyperAI