il y a 7 mois

Résumé

La fusion d'informations multimodales est reconnue pour pouvoir apporter une amélioration significative dans la classification vidéo. Cependant, la méthode la plus populaire jusqu'à présent consiste encore à fusionner simplement les scores de prédiction de chaque flux à la dernière étape. Une question légitime se pose : existe-t-il une méthode plus efficace pour fusionner l'information entre les modalités ? Avec le développement du mécanisme d'attention dans le traitement automatique des langues, de nombreuses applications réussies de l'attention ont émergé dans le domaine de la vision par ordinateur. Dans cet article, nous proposons une opération d'attention intermodale (cross-modality attention), qui peut obtenir des informations d'autres modalités de manière plus efficace que la méthode à deux flux. Nous avons également mis en œuvre un bloc compatible appelé bloc CMA, qui enveloppe notre opération d'attention proposée. Le bloc CMA peut être intégré à de nombreuses architectures existantes. Dans les expériences, nous comparons de manière exhaustive notre méthode avec les modèles à deux flux et non-locaux largement utilisés dans la classification vidéo. Toutes les expériences démontrent clairement la supériorité des performances de notre méthode proposée. Nous analysons également les avantages du bloc CMA en visualisant la carte d'attention, ce qui montre intuitivement comment ce bloc aide à la prédiction finale.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 7 mois

Multimodal

Représentation Multimodale

Lu Chi; Guiyu Tian; Yadong Mu; Qi Tian

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 7 mois

Multimodal

Représentation Multimodale

Lu Chi; Guiyu Tian; Yadong Mu; Qi Tian

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Classification vidéo à deux flux avec attention inter-modale

Lu Chi; Guiyu Tian; Yadong Mu; Qi Tian

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Classification vidéo à deux flux avec attention inter-modale

Lu Chi; Guiyu Tian; Yadong Mu; Qi Tian

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Classification vidéo à deux flux avec attention inter-modale

Lu Chi; Guiyu Tian; Yadong Mu; Qi Tian

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters