HyperAIHyperAI
il y a 2 mois

MAttNet : Réseau d'Attention Modulaire pour la Compréhension des Expressions de Référence

Yu, Licheng ; Lin, Zhe ; Shen, Xiaohui ; Yang, Jimei ; Lu, Xin ; Bansal, Mohit ; Berg, Tamara L.
MAttNet : Réseau d'Attention Modulaire pour la Compréhension des Expressions de Référence
Résumé

Dans cet article, nous abordons la compréhension des expressions de référence : la localisation d'une région d'image décrite par une expression en langage naturel. Bien que la plupart des travaux récents traitent les expressions comme une unité unique, nous proposons de les décomposer en trois composants modulaires liés à l'apparence du sujet, sa position et sa relation avec d'autres objets. Cela nous permet d'adapter de manière flexible aux expressions contenant différents types d'informations dans un cadre end-to-end. Dans notre modèle, que nous appelons le Réseau d'Attention Modulaire (MAttNet), deux types d'attention sont utilisés : l'attention basée sur le langage qui apprend les poids des modules ainsi que l'attention sur les mots/phrases que chaque module doit focaliser ; et l'attention visuelle qui permet aux modules de sujet et de relation de se concentrer sur les composants pertinents de l'image. Les poids des modules combinent dynamiquement les scores provenant des trois modules pour produire un score global. Les expériences montrent que MAttNet surpass largement les méthodes précédentes de pointe, tant pour les tâches de compréhension au niveau des boîtes englobantes que pour celles au niveau des pixels. Une démonstration et le code source sont fournis.