HyperAIHyperAI

Command Palette

Search for a command to run...

Réseaux d'Attention Bilineaire

Jin-Hwa Kim Jaehyun Jun Byoung-Tak Zhang

Résumé

Les réseaux d'attention dans l'apprentissage multimodal fournissent un moyen efficace d'utiliser sélectivement les informations visuelles données. Cependant, le coût computationnel pour apprendre des distributions d'attention pour chaque paire de canaux d'entrée multimodale est prohibitif. Pour résoudre ce problème, la co-attention construit deux distributions d'attention distinctes pour chaque modalité, en négligeant l'interaction entre les entrées multimodales. Dans cet article, nous proposons des réseaux d'attention bilinéaires (BAN) qui trouvent des distributions d'attention bilinéaires afin d'utiliser les informations vision-langue données de manière fluide. Le BAN prend en compte les interactions bilinéaires entre deux groupes de canaux d'entrée, tandis que le regroupement bilinéaire de faible rang extrait les représentations conjointes pour chaque paire de canaux. De plus, nous proposons une variante des réseaux neuronaux multimodaux résiduels pour exploiter efficacement les huit cartes d'attention du BAN. Nous évaluons notre modèle quantitativement et qualitativement sur les jeux de données Visual Question Answering (VQA 2.0) et Flickr30k Entities, montrant que le BAN dépasse considérablement les méthodes précédentes et atteint de nouveaux états de l'art sur ces deux jeux de données.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp