HyperAIHyperAI

Command Palette

Search for a command to run...

En défense des caractéristiques grille pour la réponse aux questions visuelles

Huaizu Jiang Ishan Misra Marcus Rohrbach Erik Learned-Miller Xinlei Chen

Résumé

Popularisées sous le nom d’attention « bottom-up », les caractéristiques visuelles basées sur des boîtes englobantes (ou régions) ont récemment dépassé les caractéristiques convolutionnelles basées sur une grille brute en tant que standard de facto pour des tâches visuelles et linguistiques telles que la réponse à des questions visuelles (VQA). Toutefois, il n’est pas clair si les avantages des régions (par exemple, une localisation améliorée) sont les principales raisons du succès de l’attention bottom-up. Dans cet article, nous réexaminons les caractéristiques basées sur la grille pour la VQA, et constatons qu’elles peuvent fonctionner de manière étonnamment efficace — en étant plus de dix fois plus rapides tout en maintenant la même précision (par exemple, lorsqu’elles sont pré-entraînées de manière similaire). À travers des expériences étendues, nous confirmons que cette observation est valable quel que soit le modèle VQA utilisé (obtenant une précision de pointe sur le test-std de VQA 2.0, à 72,71), les jeux de données, et se généralise bien à d’autres tâches telles que la génération de légendes d’images. Étant donné que les caractéristiques basées sur la grille simplifient considérablement la conception et le processus d’entraînement des modèles, elles permettent un entraînement end-to-end ainsi qu’une architecture réseau plus flexible. Nous entraînons les modèles VQA de manière end-to-end, directement à partir des pixels jusqu’aux réponses, et démontrons qu’une performance élevée est atteignable sans utiliser aucune annotation de région lors de la phase de pré-entraînement. Nous espérons que nos résultats contribueront à approfondir la compréhension scientifique et à améliorer l’application pratique de la VQA. Le code et les caractéristiques seront rendus disponibles.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
En défense des caractéristiques grille pour la réponse aux questions visuelles | Articles | HyperAI