HyperAIHyperAI

Command Palette

Search for a command to run...

Attention ascendante et descendante pour la légendage d'images et les réponses à questions visuelles

Peter Anderson Xiaodong He Chris Buehler Damien Teney Mark Johnson Stephen Gould Lei Zhang

Résumé

Les mécanismes d'attention visuelle de haut en bas ont été largement utilisés dans la légendisation d'images et la réponse à des questions visuelles (VQA) pour permettre une compréhension plus approfondie des images grâce à une analyse détaillée et même à plusieurs étapes de raisonnement. Dans ce travail, nous proposons un mécanisme d'attention combiné de bas en haut et de haut en bas qui permet le calcul de l'attention au niveau des objets et d'autres régions saillantes de l'image. Ceci constitue la base naturelle pour considérer l'attention. Dans notre approche, le mécanisme de bas en haut (basé sur Faster R-CNN) propose des régions d'image, chacune associée à un vecteur de caractéristiques, tandis que le mécanisme de haut en bas détermine les pondérations des caractéristiques. En appliquant cette approche à la légendisation d'images, nos résultats sur le serveur de tests MSCOCO établissent un nouveau niveau d'excellence pour cette tâche, avec des scores respectifs de CIDEr / SPICE / BLEU-4 de 117,9, 21,5 et 36,9. Pour démontrer l'applicabilité générale de la méthode, en l'appliquant au VQA, nous obtenons la première place au Défi VQA 2017.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp