CoSMo : modulation contenu-style pour la récupération d’images avec retour textuel

Nous abordons la tâche de recherche d’images à partir de feedback textuel, dans laquelle une image de référence et un texte modificateur sont combinés pour identifier l’image cible souhaitée. Nous nous concentrons sur la conception d’un composant image-texte, c’est-à-dire l’intégration d’entrées multimodales afin de produire une représentation similaire à celle de l’image cible. Dans notre algorithme, le Modulateur de Contenu-Style (CoSMo), nous relevons ce défi en introduisant deux modules basés sur des réseaux neuronaux profonds : le modulateur de contenu et le modulateur de style. Le modulateur de contenu effectue des mises à jour locales sur les caractéristiques de l’image de référence après normalisation du style de l’image, en utilisant un bloc non-local déconnecté multimodal pour réaliser les modifications de contenu souhaitées. Ensuite, le modulateur de style réintroduit des informations stylistiques globales dans les caractéristiques mises à jour. Nous présentons une analyse approfondie de notre algorithme et de ses choix de conception, et démontrons qu’il atteint des performances exceptionnelles sur plusieurs benchmarks de recherche d’images-texte. Notre code est disponible à l’adresse suivante : https://github.com/postBG/CosMo.pytorch