HyperAIHyperAI

Command Palette

Search for a command to run...

Réseaux X-Linear Attention pour la génération de légendes d'images

Yingwei Pan Ting Yao Yehao Li Tao Mei

Résumé

Les progrès récents dans le domaine de la reconnaissance visuelle fine-grained et de la réponse à des questions visuelles ont mis en avant le pooling bilinéaire, une méthode efficace pour modéliser les interactions du second ordre entre entrées multimodales. Toutefois, aucune preuve n’a encore été apportée concernant la construction simultanée de telles interactions avec un mécanisme d’attention pour la génération automatique de légendes d’images. Dans cet article, nous proposons un bloc d’attention unifié — le bloc d’attention X-Linear — qui exploite pleinement le pooling bilinéaire afin de sélectionner de manière ciblée les informations visuelles ou d’effectuer un raisonnement multimodal. Techniquement, le bloc d’attention X-Linear exploite simultanément les distributions d’attention bilinéaire spatiale et canal par canal afin de capturer les interactions du second ordre entre les caractéristiques mono- ou multimodales d’entrée. Des interactions de degré supérieur, voire d’ordre infini, peuvent être modélisées de manière naturelle en empilant plusieurs blocs X-Linear et en intégrant l’unité linéaire exponentielle (ELU) dans une approche sans paramètre. En outre, nous introduisons les Réseaux d’Attention X-Linear (dénommés X-LAN), qui intègrent de manière novatrice un ou plusieurs blocs d’attention X-Linear dans l’encodeur d’images et le décodeur de phrases d’un modèle de génération de légendes. Cette architecture permet de tirer parti d’interactions intra- et inter-modales d’ordre supérieur. Les expérimentations sur le benchmark COCO montrent que notre modèle X-LAN atteint, à ce jour, la meilleure performance publiée en termes de CIDEr sur le split de test Karpathy de COCO, avec un score de 132,0 %. Lorsqu’on enrichit le modèle Transformer avec des blocs d’attention X-Linear, le score CIDEr s’améliore jusqu’à 132,8 %. Le code source est disponible à l’adresse suivante : \url{https://github.com/Panda-Peter/image-captioning}.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Réseaux X-Linear Attention pour la génération de légendes d'images | Articles | HyperAI