HyperAIHyperAI
il y a 17 jours

Réseaux X-Linear Attention pour la génération de légendes d'images

Yingwei Pan, Ting Yao, Yehao Li, Tao Mei
Réseaux X-Linear Attention pour la génération de légendes d'images
Résumé

Les progrès récents dans le domaine de la reconnaissance visuelle fine-grained et de la réponse à des questions visuelles ont mis en avant le pooling bilinéaire, une méthode efficace pour modéliser les interactions du second ordre entre entrées multimodales. Toutefois, aucune preuve n’a encore été apportée concernant la construction simultanée de telles interactions avec un mécanisme d’attention pour la génération automatique de légendes d’images. Dans cet article, nous proposons un bloc d’attention unifié — le bloc d’attention X-Linear — qui exploite pleinement le pooling bilinéaire afin de sélectionner de manière ciblée les informations visuelles ou d’effectuer un raisonnement multimodal. Techniquement, le bloc d’attention X-Linear exploite simultanément les distributions d’attention bilinéaire spatiale et canal par canal afin de capturer les interactions du second ordre entre les caractéristiques mono- ou multimodales d’entrée. Des interactions de degré supérieur, voire d’ordre infini, peuvent être modélisées de manière naturelle en empilant plusieurs blocs X-Linear et en intégrant l’unité linéaire exponentielle (ELU) dans une approche sans paramètre. En outre, nous introduisons les Réseaux d’Attention X-Linear (dénommés X-LAN), qui intègrent de manière novatrice un ou plusieurs blocs d’attention X-Linear dans l’encodeur d’images et le décodeur de phrases d’un modèle de génération de légendes. Cette architecture permet de tirer parti d’interactions intra- et inter-modales d’ordre supérieur. Les expérimentations sur le benchmark COCO montrent que notre modèle X-LAN atteint, à ce jour, la meilleure performance publiée en termes de CIDEr sur le split de test Karpathy de COCO, avec un score de 132,0 %. Lorsqu’on enrichit le modèle Transformer avec des blocs d’attention X-Linear, le score CIDEr s’améliore jusqu’à 132,8 %. Le code source est disponible à l’adresse suivante : \url{https://github.com/Panda-Peter/image-captioning}.