il y a 2 mois

Attention ascendante et descendante pour la légendage d'images et les réponses à questions visuelles

Peter Anderson; Xiaodong He; Chris Buehler; Damien Teney; Mark Johnson; Stephen Gould; Lei Zhang

Résumé

Les mécanismes d'attention visuelle de haut en bas ont été largement utilisés dans la légendisation d'images et la réponse à des questions visuelles (VQA) pour permettre une compréhension plus approfondie des images grâce à une analyse détaillée et même à plusieurs étapes de raisonnement. Dans ce travail, nous proposons un mécanisme d'attention combiné de bas en haut et de haut en bas qui permet le calcul de l'attention au niveau des objets et d'autres régions saillantes de l'image. Ceci constitue la base naturelle pour considérer l'attention. Dans notre approche, le mécanisme de bas en haut (basé sur Faster R-CNN) propose des régions d'image, chacune associée à un vecteur de caractéristiques, tandis que le mécanisme de haut en bas détermine les pondérations des caractéristiques. En appliquant cette approche à la légendisation d'images, nos résultats sur le serveur de tests MSCOCO établissent un nouveau niveau d'excellence pour cette tâche, avec des scores respectifs de CIDEr / SPICE / BLEU-4 de 117,9, 21,5 et 36,9. Pour démontrer l'applicabilité générale de la méthode, en l'appliquant au VQA, nous obtenons la première place au Défi VQA 2017.