HyperAIHyperAI
il y a 17 jours

ViViT : Un Vision Transformer pour vidéos

Anurag Arnab, Mostafa Dehghani, Georg Heigold, Chen Sun, Mario Lučić, Cordelia Schmid
ViViT : Un Vision Transformer pour vidéos
Résumé

Nous présentons des modèles fondés uniquement sur les transformateurs pour la classification vidéo, s'inspirant du succès récent de ces modèles dans la classification d'images. Notre modèle extrait des tokens spatio-temporels à partir de la vidéo d'entrée, qui sont ensuite encodés par une série de couches de transformateurs. Afin de traiter les séquences longues de tokens rencontrées dans les vidéos, nous proposons plusieurs variantes efficaces de notre modèle, qui factorisent les dimensions spatiales et temporelles de l'entrée. Bien que les modèles basés sur les transformateurs soient généralement efficaces uniquement lorsqu'ils sont entraînés sur de grandes bases de données, nous montrons comment nous pouvons régulariser efficacement le modèle pendant l'entraînement et exploiter des modèles préentraînés sur des images afin de pouvoir entraîner sur des jeux de données relativement petits. Nous menons des études d'ablation approfondies et atteignons des résultats de pointe sur plusieurs benchmarks de classification vidéo, notamment Kinetics 400 et 600, Epic Kitchens, Something-Something v2 et Moments in Time, surpassant ainsi les méthodes antérieures basées sur des réseaux de convolution profonds 3D. Pour faciliter des recherches ultérieures, nous mettons à disposition le code source à l'adresse suivante : https://github.com/google-research/scenic/tree/main/scenic/projects/vivit