HyperAIHyperAI
il y a 15 jours

AVT : Transformer Audio-Visuel pour la Reconnaissance d'Actions Multimodales

{Mohamed Omar, Linda Liu, Xiang Hao, Xiaohang Sun, Kevin Hsu, Jingru Yi, Wentao Zhu}
AVT : Transformer Audio-Visuel pour la Reconnaissance d'Actions Multimodales
Résumé

La reconnaissance d’actions est un domaine essentiel pour la compréhension des vidéos. Afin d’apprendre efficacement à partir de sources de données hétérogènes, nous proposons dans ce travail une nouvelle approche de reconnaissance d’actions multimodales appelée Audio-Video Transformer (AVT). AVT exploite une combinaison de signaux vidéo et audio afin d’améliorer la précision de la reconnaissance d’actions, en tirant parti de la représentation spatio-temporelle efficace fournie par le Transformer vidéo. Pour la fusion multimodale, la concaténation simple des jetons multimodaux dans un Transformer cross-modale nécessite des ressources computationnelles et mémoire importantes ; nous réduisons ainsi la complexité cross-modale grâce à un Transformer à goulot d’étranglement audio-vision. Pour améliorer l’efficacité d’apprentissage du Transformer multimodal, nous intégrons des objectifs auto-supervisés dans l’entraînement d’AVT, à savoir l’apprentissage contrastif audio-vision, la correspondance audio-vision, ainsi que l’apprentissage masqué audio et vidéo, qui permettent de projeter des représentations audio et vidéo diverses dans un espace de représentation multimodale commun. Nous proposons également une perte de segment audio masqué pour apprendre les activités sémantiques audio dans AVT. Des expériences abondantes et des études d’ablation menées sur trois jeux de données publics et deux jeux de données internes démontrent de manière cohérente l’efficacité de l’AVT proposée. Plus précisément, AVT surpasse ses prédécesseurs de l’état de l’art sur les jeux de données Kinetics-Sounds et Epic-Kitchens-100 de respectivement 8 % et 1 %, sans recourir à des données d’entraînement externes. AVT dépasse également l’un des meilleurs Transformers vidéo précédents de 10 % sur le jeu de données VGGSound en exploitant le signal audio. En comparaison avec l’un des meilleurs Transformers multimodaux précédents, AVT est 1,3 fois plus efficace en termes de FLOPs et améliore la précision de 4,2 % sur Epic-Kitchens-100. Les résultats de visualisation confirment également que le signal audio fournit des caractéristiques complémentaires et discriminantes, et que notre AVT est capable de comprendre efficacement les actions à partir d’une combinaison de signaux audio et vidéo.

AVT : Transformer Audio-Visuel pour la Reconnaissance d'Actions Multimodales | Articles de recherche récents | HyperAI