HyperAIHyperAI

Command Palette

Search for a command to run...

MUTAN : Fusion multimodale de Tucker pour le réponse aux questions visuelles

Hedi Ben-younes Rémi Cadene Matthieu Cord Nicolas Thome

Résumé

Les modèles bilinéaires offrent un cadre attractif pour mélanger et fusionner des informations dans les tâches de Visual Question Answering (VQA). Ils permettent d'apprendre des associations de haut niveau entre le sens des questions et les concepts visuels présents dans l'image, mais ils souffrent de problèmes de dimensionalité importante. Nous présentons MUTAN, une décomposition tensorielle multimodale basée sur le modèle de Tucker, qui permet de paramétrer efficacement les interactions bilinéaires entre les représentations visuelles et textuelles. En complément du cadre de Tucker, nous concevons une décomposition basée sur des matrices de faible rang pour contraindre explicitement le rang d'interaction. Avec MUTAN, nous maîtrisons la complexité du schéma de fusion tout en conservant des relations de fusion interprétables. Nous montrons comment notre modèle MUTAN généralise certaines des dernières architectures VQA, fournissant ainsi des résultats à la pointe de l'art.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
MUTAN : Fusion multimodale de Tucker pour le réponse aux questions visuelles | Articles | HyperAI