il y a 7 mois

Résumé

Les réseaux d'attention dans l'apprentissage multimodal fournissent un moyen efficace d'utiliser sélectivement les informations visuelles données. Cependant, le coût computationnel pour apprendre des distributions d'attention pour chaque paire de canaux d'entrée multimodale est prohibitif. Pour résoudre ce problème, la co-attention construit deux distributions d'attention distinctes pour chaque modalité, en négligeant l'interaction entre les entrées multimodales. Dans cet article, nous proposons des réseaux d'attention bilinéaires (BAN) qui trouvent des distributions d'attention bilinéaires afin d'utiliser les informations vision-langue données de manière fluide. Le BAN prend en compte les interactions bilinéaires entre deux groupes de canaux d'entrée, tandis que le regroupement bilinéaire de faible rang extrait les représentations conjointes pour chaque paire de canaux. De plus, nous proposons une variante des réseaux neuronaux multimodaux résiduels pour exploiter efficacement les huit cartes d'attention du BAN. Nous évaluons notre modèle quantitativement et qualitativement sur les jeux de données Visual Question Answering (VQA 2.0) et Flickr30k Entities, montrant que le BAN dépasse considérablement les méthodes précédentes et atteint de nouveaux états de l'art sur ces deux jeux de données.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 7 mois

Réponse À Des Questions Visuelles

Représentation Multimodale

Multimodal

Tâche

Jin-Hwa Kim Jaehyun Jun Byoung-Tak Zhang

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 7 mois

Réponse À Des Questions Visuelles

Représentation Multimodale

Multimodal

Tâche

Jin-Hwa Kim Jaehyun Jun Byoung-Tak Zhang

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Réseaux d'Attention Bilineaire

Jin-Hwa Kim Jaehyun Jun Byoung-Tak Zhang

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Réseaux d'Attention Bilineaire

Jin-Hwa Kim Jaehyun Jun Byoung-Tak Zhang

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Réseaux d'Attention Bilineaire

Jin-Hwa Kim Jaehyun Jun Byoung-Tak Zhang

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters