Command Palette
Search for a command to run...
Réseaux d'Attention Bilineaire
Réseaux d'Attention Bilineaire
Jin-Hwa Kim Jaehyun Jun Byoung-Tak Zhang
Résumé
Les réseaux d'attention dans l'apprentissage multimodal fournissent un moyen efficace d'utiliser sélectivement les informations visuelles données. Cependant, le coût computationnel pour apprendre des distributions d'attention pour chaque paire de canaux d'entrée multimodale est prohibitif. Pour résoudre ce problème, la co-attention construit deux distributions d'attention distinctes pour chaque modalité, en négligeant l'interaction entre les entrées multimodales. Dans cet article, nous proposons des réseaux d'attention bilinéaires (BAN) qui trouvent des distributions d'attention bilinéaires afin d'utiliser les informations vision-langue données de manière fluide. Le BAN prend en compte les interactions bilinéaires entre deux groupes de canaux d'entrée, tandis que le regroupement bilinéaire de faible rang extrait les représentations conjointes pour chaque paire de canaux. De plus, nous proposons une variante des réseaux neuronaux multimodaux résiduels pour exploiter efficacement les huit cartes d'attention du BAN. Nous évaluons notre modèle quantitativement et qualitativement sur les jeux de données Visual Question Answering (VQA 2.0) et Flickr30k Entities, montrant que le BAN dépasse considérablement les méthodes précédentes et atteint de nouveaux états de l'art sur ces deux jeux de données.