il y a 17 jours

Régulateurs plug-and-play pour l’alignement image-texte

Haiwen Diao, Ying Zhang, Wei Liu, Xiang Ruan, Huchuan Lu

Résumé

L’exploitation de correspondances à fine-grain et d’alignements visuels-sémantiques a démontré un grand potentiel dans la tâche d’alignement image-texte. En général, les approches récentes utilisent d’abord une unité d’attention cross-modale pour capturer les interactions latentes entre régions d’image et mots, puis intègrent toutes ces alignements afin d’obtenir la similarité finale. Toutefois, la plupart d’entre elles reposent sur des stratégies d’association ou d’agrégation à une seule passe, avec des architectures complexes ou des informations supplémentaires, tout en négligeant le pouvoir régulateur de la rétroaction du réseau. Dans cet article, nous proposons deux régulateurs simples mais très efficaces, capables d’encoder de manière efficace les messages sortants afin de contextualiser automatiquement et d’agrégater les représentations cross-modales. Plus précisément, nous introduisons : (i) un Régulateur de Correspondance Récurrente (RCR), qui améliore progressivement l’unité d’attention cross-modale grâce à des facteurs d’attention adaptatifs, permettant ainsi de capturer des correspondances plus flexibles ; et (ii) un Régulateur d’Agrégation Récurrente (RAR), qui ajuste itérativement les poids d’agrégation afin d’intensifier progressivement l’importance des alignements significatifs et de réduire celle des alignements peu pertinents. Par ailleurs, il est intéressant de noter que le RCR et le RAR sont plug-and-play : ils peuvent être facilement intégrés à de nombreux cadres basés sur l’interaction cross-modale, offrant ainsi des améliorations significatives, et leur coopération permet d’obtenir des gains supplémentaires. Des expérimentations étendues sur les jeux de données MSCOCO et Flickr30K montrent que ces méthodes permettent d’obtenir un gain impressionnant et cohérent en R@1 sur plusieurs modèles, confirmant ainsi l’efficacité générale et la capacité de généralisation des approches proposées. Le code source et les modèles pré-entraînés sont disponibles à l’adresse suivante : https://github.com/Paranioar/RCAR.