HyperAIHyperAI
il y a 17 jours

VATT : Transformers pour l'apprentissage non supervisé multimodal à partir de vidéos, audio et textes bruts

Hassan Akbari, Liangzhe Yuan, Rui Qian, Wei-Hong Chuang, Shih-Fu Chang, Yin Cui, Boqing Gong
VATT : Transformers pour l'apprentissage non supervisé multimodal à partir de vidéos, audio et textes bruts
Résumé

Nous présentons un cadre d’apprentissage de représentations multimodales à partir de données non étiquetées, basé sur des architectures Transformer exemptes de convolution. Plus précisément, notre modèle Video-Audio-Text Transformer (VATT) prend en entrée des signaux bruts et extrait des représentations multimodales suffisamment riches pour bénéficier à une variété de tâches ultérieures. Nous entraînons VATT de manière end-to-end à partir de zéro en utilisant des pertes contrastives multimodales, et évaluons ses performances sur des tâches ultérieures telles que la reconnaissance d’actions vidéo, la classification d’événements audio, la classification d’images et la recherche vidéo à partir de texte. En outre, nous étudions une architecture Transformer unifiée, indépendante des modalités, en partageant les poids entre les trois modalités. Nous montrons que le VATT exempt de convolution surpasser les architectures basées sur les ConvNet les plus avancées dans les tâches ultérieures. En particulier, le Transformer vision de VATT atteint une précision top-1 de 82,1 % sur Kinetics-400, 83,6 % sur Kinetics-600, 72,7 % sur Kinetics-700 et 41,1 % sur Moments in Time, établissant de nouveaux records sans recourir à un pré-entraînement supervisé. Le transfert vers la classification d’images permet d’atteindre une précision top-1 de 78,7 % sur ImageNet, contre 64,7 % lorsque le même Transformer est entraîné à partir de zéro, démontrant ainsi la généralisation de notre modèle malgré l’écart de domaine entre vidéos et images. Le Transformer audio de VATT établit également un nouveau record sur la reconnaissance d’événements audio à partir de signaux bruts, en atteignant un mAP de 39,4 % sur AudioSet sans pré-entraînement supervisé. Le code source de VATT est disponible publiquement.