Command Palette
Search for a command to run...
MUTAN : Fusion multimodale de Tucker pour le réponse aux questions visuelles
MUTAN : Fusion multimodale de Tucker pour le réponse aux questions visuelles
Hedi Ben-younes Rémi Cadene Matthieu Cord Nicolas Thome
Résumé
Les modèles bilinéaires offrent un cadre attractif pour mélanger et fusionner des informations dans les tâches de Visual Question Answering (VQA). Ils permettent d'apprendre des associations de haut niveau entre le sens des questions et les concepts visuels présents dans l'image, mais ils souffrent de problèmes de dimensionalité importante. Nous présentons MUTAN, une décomposition tensorielle multimodale basée sur le modèle de Tucker, qui permet de paramétrer efficacement les interactions bilinéaires entre les représentations visuelles et textuelles. En complément du cadre de Tucker, nous concevons une décomposition basée sur des matrices de faible rang pour contraindre explicitement le rang d'interaction. Avec MUTAN, nous maîtrisons la complexité du schéma de fusion tout en conservant des relations de fusion interprétables. Nous montrons comment notre modèle MUTAN généralise certaines des dernières architectures VQA, fournissant ainsi des résultats à la pointe de l'art.