HyperAIHyperAI
il y a 2 mois

Classification vidéo à deux flux avec attention inter-modale

Lu Chi; Guiyu Tian; Yadong Mu; Qi Tian
Classification vidéo à deux flux avec attention inter-modale
Résumé

La fusion d'informations multimodales est reconnue pour pouvoir apporter une amélioration significative dans la classification vidéo. Cependant, la méthode la plus populaire jusqu'à présent consiste encore à fusionner simplement les scores de prédiction de chaque flux à la dernière étape. Une question légitime se pose : existe-t-il une méthode plus efficace pour fusionner l'information entre les modalités ? Avec le développement du mécanisme d'attention dans le traitement automatique des langues, de nombreuses applications réussies de l'attention ont émergé dans le domaine de la vision par ordinateur. Dans cet article, nous proposons une opération d'attention intermodale (cross-modality attention), qui peut obtenir des informations d'autres modalités de manière plus efficace que la méthode à deux flux. Nous avons également mis en œuvre un bloc compatible appelé bloc CMA, qui enveloppe notre opération d'attention proposée. Le bloc CMA peut être intégré à de nombreuses architectures existantes. Dans les expériences, nous comparons de manière exhaustive notre méthode avec les modèles à deux flux et non-locaux largement utilisés dans la classification vidéo. Toutes les expériences démontrent clairement la supériorité des performances de notre méthode proposée. Nous analysons également les avantages du bloc CMA en visualisant la carte d'attention, ce qui montre intuitivement comment ce bloc aide à la prédiction finale.

Classification vidéo à deux flux avec attention inter-modale | Articles de recherche récents | HyperAI