HyperAIHyperAI
il y a 2 mois

Appariement d'images et de phrases avec LSTM multimodale sélective adapté aux instances

Yan Huang; Wei Wang; Liang Wang
Appariement d'images et de phrases avec LSTM multimodale sélective adapté aux instances
Résumé

Une correspondance efficace entre images et phrases dépend de la manière dont on mesure bien leur similarité visuelle-sémantique globale. À partir de l'observation que cette similarité globale découle d'une agrégation complexe de multiples similarités locales entre des paires d'instances d'image (objets) et de phrase (mots), nous proposons un réseau neuronal à mémoire à court et long terme multimodal sélectif (sm-LSTM) pour une correspondance consciente des instances entre images et phrases. L'architecture sm-LSTM intègre, à chaque pas de temps, un schéma d'attention modulée par le contexte multimodal qui peut sélectionner de manière sélective une paire d'instances d'image et de phrase, en prédissant des cartes de saillance conscientes des paires d'instances pour l'image et la phrase. Pour les paires d'instances sélectionnées, leurs représentations sont obtenues sur la base des cartes de saillance prédites, puis comparées pour mesurer leur similarité locale. En mesurant de manière similaire plusieurs similarités locales au cours de quelques pas de temps, l'sm-LSTM les agrège séquentiellement avec les états cachés afin d'obtenir un score final de correspondance comme la similarité globale souhaitée. De nombreuses expériences montrent que notre modèle peut bien faire correspondre des images et des phrases à contenu complexe, et atteint des résultats en pointe sur deux jeux de données benchmarks publics.