HyperAIHyperAI

Command Palette

Search for a command to run...

Classification vidéo à deux flux avec attention inter-modale

Lu Chi; Guiyu Tian; Yadong Mu; Qi Tian

Résumé

La fusion d'informations multimodales est reconnue pour pouvoir apporter une amélioration significative dans la classification vidéo. Cependant, la méthode la plus populaire jusqu'à présent consiste encore à fusionner simplement les scores de prédiction de chaque flux à la dernière étape. Une question légitime se pose : existe-t-il une méthode plus efficace pour fusionner l'information entre les modalités ? Avec le développement du mécanisme d'attention dans le traitement automatique des langues, de nombreuses applications réussies de l'attention ont émergé dans le domaine de la vision par ordinateur. Dans cet article, nous proposons une opération d'attention intermodale (cross-modality attention), qui peut obtenir des informations d'autres modalités de manière plus efficace que la méthode à deux flux. Nous avons également mis en œuvre un bloc compatible appelé bloc CMA, qui enveloppe notre opération d'attention proposée. Le bloc CMA peut être intégré à de nombreuses architectures existantes. Dans les expériences, nous comparons de manière exhaustive notre méthode avec les modèles à deux flux et non-locaux largement utilisés dans la classification vidéo. Toutes les expériences démontrent clairement la supériorité des performances de notre méthode proposée. Nous analysons également les avantages du bloc CMA en visualisant la carte d'attention, ce qui montre intuitivement comment ce bloc aide à la prédiction finale.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Classification vidéo à deux flux avec attention inter-modale | Articles | HyperAI