IMRAM : Correspondance itérative avec mémoire d'attention récurrente pour la recherche d'images et de textes multimodaux

Permettre la récupération bidirectionnelle d’images et de textes est essentiel pour comprendre la correspondance entre la vision et le langage. Les méthodes existantes exploitent le mécanisme d’attention afin d’explorer cette correspondance de manière fine. Toutefois, la plupart d’entre elles traitent toutes les sémantiques de manière équivalente, les alignant de façon uniforme, indépendamment de leurs complexités variées. En réalité, les sémantiques sont diverses (c’est-à-dire qu’elles impliquent différents types de concepts sémantiques), et les êtres humains suivent généralement une structure latente pour les combiner en langages compréhensibles. Il peut donc être difficile pour les méthodes existantes de capturer de manière optimale de telles correspondances complexes. Dans cet article, afin de remédier à cette limitation, nous proposons une méthode appelée IMRAM (Iterative Matching with Recurrent Attention Memory), dans laquelle les correspondances entre images et textes sont capturées à travers plusieurs étapes d’alignement. Plus précisément, nous introduisons un schéma d’appariement itératif permettant d’explorer progressivement cette correspondance fine. Une unité de distillation de mémoire est utilisée pour affiner les connaissances d’alignement des étapes initiales vers les étapes ultérieures. Les résultats expérimentaux sur trois jeux de données de référence — Flickr8K, Flickr30K et MS COCO — montrent que notre méthode IMRAM atteint des performances de pointe, démontrant ainsi efficacement son efficacité. Des expériences supplémentaires sur un jeu de données réelle issue d’une application commerciale, nommée \Ads{}, valident également la faisabilité de notre approche dans des scénarios pratiques.