HyperAIHyperAI

Command Palette

Search for a command to run...

AVT : Transformer Audio-Visuel pour la Reconnaissance d'Actions Multimodales

Mohamed Omar Linda Liu Xiang Hao Xiaohang Sun Kevin Hsu Jingru Yi Wentao Zhu

Résumé

La reconnaissance d’actions est un domaine essentiel pour la compréhension des vidéos. Afin d’apprendre efficacement à partir de sources de données hétérogènes, nous proposons dans ce travail une nouvelle approche de reconnaissance d’actions multimodales appelée Audio-Video Transformer (AVT). AVT exploite une combinaison de signaux vidéo et audio afin d’améliorer la précision de la reconnaissance d’actions, en tirant parti de la représentation spatio-temporelle efficace fournie par le Transformer vidéo. Pour la fusion multimodale, la concaténation simple des jetons multimodaux dans un Transformer cross-modale nécessite des ressources computationnelles et mémoire importantes ; nous réduisons ainsi la complexité cross-modale grâce à un Transformer à goulot d’étranglement audio-vision. Pour améliorer l’efficacité d’apprentissage du Transformer multimodal, nous intégrons des objectifs auto-supervisés dans l’entraînement d’AVT, à savoir l’apprentissage contrastif audio-vision, la correspondance audio-vision, ainsi que l’apprentissage masqué audio et vidéo, qui permettent de projeter des représentations audio et vidéo diverses dans un espace de représentation multimodale commun. Nous proposons également une perte de segment audio masqué pour apprendre les activités sémantiques audio dans AVT. Des expériences abondantes et des études d’ablation menées sur trois jeux de données publics et deux jeux de données internes démontrent de manière cohérente l’efficacité de l’AVT proposée. Plus précisément, AVT surpasse ses prédécesseurs de l’état de l’art sur les jeux de données Kinetics-Sounds et Epic-Kitchens-100 de respectivement 8 % et 1 %, sans recourir à des données d’entraînement externes. AVT dépasse également l’un des meilleurs Transformers vidéo précédents de 10 % sur le jeu de données VGGSound en exploitant le signal audio. En comparaison avec l’un des meilleurs Transformers multimodaux précédents, AVT est 1,3 fois plus efficace en termes de FLOPs et améliore la précision de 4,2 % sur Epic-Kitchens-100. Les résultats de visualisation confirment également que le signal audio fournit des caractéristiques complémentaires et discriminantes, et que notre AVT est capable de comprendre efficacement les actions à partir d’une combinaison de signaux audio et vidéo.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp