HyperAIHyperAI

Command Palette

Search for a command to run...

Transformateur Multéchelle Multimodal pour la Reconnaissance d'Actions Multimodales

Mohamed Omar Linda Liu Xiang Hao Xiaohang Sun Jingru Yi Wentao Zhu

Résumé

Bien que la reconnaissance d’actions soit un domaine de recherche actif depuis plusieurs années, la plupart des approches existantes exploitent uniquement la modalité vidéo, contrairement à l’être humain qui traite efficacement les signaux visuels et audio de manière simultanée. Cette limitation restreint l’application des modèles récents à des scénarios où les actions sont clairement définies visuellement. D’un autre côté, les signaux audio et vidéo peuvent être perçus selon une structure hiérarchique : par exemple, du signal audio à chaque instant d’échantillonnage jusqu’aux activités audio et enfin à la catégorie globale dans la classification audio. Dans ce travail, nous proposons un Transformer multimodal multiscale (MMT) fondé sur une apprentissage hiérarchique de représentations. Plus précisément, le MMT est composé d’un nouveau Transformer audio multiscale (MAT) et d’un Transformer vidéo multiscale. En outre, nous introduisons une série d’objectifs de contraste supervisés multimodaux, nommés perte de contraste audio-visuel (AVC) et perte de contraste intra-modale (IMC), qui permettent une alignement spécifique entre les deux modalités pour une fusion robuste des représentations multimodales. Le MMT dépasse les approches précédentes de l’état de l’art de 7,3 %, 1,6 % et 2,1 % en précision top-1 sur les jeux de données Kinetics-Sounds, Epic-Kitchens-100 et VGGSound, sans recourir à des données d’entraînement externes. De plus, notre MAT surpasse significativement AST de 22,2 %, 4,4 % et 4,7 % sur les trois jeux de données publics respectifs, tout en étant 3 fois plus efficace en termes de nombre d’opérations flottantes (FLOPs). Grâce à des études d’ablation approfondies et à des visualisations, nous démontrons que le MMT proposé est capable de capturer efficacement des représentations fonctionnelles plus séparables sur le plan sémantique à partir d’un mélange de signaux vidéo et audio.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp