HyperAIHyperAI
il y a 15 jours

Transformateur Multéchelle Multimodal pour la Reconnaissance d'Actions Multimodales

{Mohamed Omar, Linda Liu, Xiang Hao, Xiaohang Sun, Jingru Yi, Wentao Zhu}
Transformateur Multéchelle Multimodal pour la Reconnaissance d'Actions Multimodales
Résumé

Bien que la reconnaissance d’actions soit un domaine de recherche actif depuis plusieurs années, la plupart des approches existantes exploitent uniquement la modalité vidéo, contrairement à l’être humain qui traite efficacement les signaux visuels et audio de manière simultanée. Cette limitation restreint l’application des modèles récents à des scénarios où les actions sont clairement définies visuellement. D’un autre côté, les signaux audio et vidéo peuvent être perçus selon une structure hiérarchique : par exemple, du signal audio à chaque instant d’échantillonnage jusqu’aux activités audio et enfin à la catégorie globale dans la classification audio. Dans ce travail, nous proposons un Transformer multimodal multiscale (MMT) fondé sur une apprentissage hiérarchique de représentations. Plus précisément, le MMT est composé d’un nouveau Transformer audio multiscale (MAT) et d’un Transformer vidéo multiscale. En outre, nous introduisons une série d’objectifs de contraste supervisés multimodaux, nommés perte de contraste audio-visuel (AVC) et perte de contraste intra-modale (IMC), qui permettent une alignement spécifique entre les deux modalités pour une fusion robuste des représentations multimodales. Le MMT dépasse les approches précédentes de l’état de l’art de 7,3 %, 1,6 % et 2,1 % en précision top-1 sur les jeux de données Kinetics-Sounds, Epic-Kitchens-100 et VGGSound, sans recourir à des données d’entraînement externes. De plus, notre MAT surpasse significativement AST de 22,2 %, 4,4 % et 4,7 % sur les trois jeux de données publics respectifs, tout en étant 3 fois plus efficace en termes de nombre d’opérations flottantes (FLOPs). Grâce à des études d’ablation approfondies et à des visualisations, nous démontrons que le MMT proposé est capable de capturer efficacement des représentations fonctionnelles plus séparables sur le plan sémantique à partir d’un mélange de signaux vidéo et audio.

Transformateur Multéchelle Multimodal pour la Reconnaissance d'Actions Multimodales | Articles de recherche récents | HyperAI