HyperAIHyperAI

Command Palette

Search for a command to run...

BEVT : Pré-entraînement de Transformers vidéo avec BERT

Rui Wang Dongdong Chen Zuxuan Wu Yinpeng Chen Xiyang Dai Mengchen Liu Yu-Gang Jiang Luowei Zhou Lu Yuan

Résumé

Cette étude s'intéresse au pré-entraînement de transformateurs vidéo basé sur BERT. Il s'agit d'une extension directe mais particulièrement intéressante à étudier, compte tenu des récents succès obtenus avec le pré-entraînement BERT appliqué aux transformateurs d'images. Nous proposons BEVT, une méthode qui découple l'apprentissage des représentations vidéo en deux composantes distinctes : l'apprentissage des représentations spatiales et l'apprentissage des dynamiques temporelles. Plus précisément, BEVT effectue d'abord un modèle d'image masquée sur des données d'images, puis réalise conjointement un modèle d'image masquée et un modèle de vidéo masquée sur des données vidéo. Cette architecture est motivée par deux observations : 1) les transformateurs entraînés sur des jeux de données d'images fournissent des priorités spatiales de qualité, qui facilitent significativement l'apprentissage des transformateurs vidéo — une tâche souvent très coûteuse en ressources computationnelles lorsqu'elle est réalisée à partir de zéro ; 2) les indices discriminatifs, à savoir les informations spatiales et temporelles nécessaires pour des prédictions correctes, varient considérablement d'une vidéo à l'autre en raison des fortes variations intra-classes et inter-classes. Nous menons des expérimentations étendues sur trois benchmarks vidéo exigeants, où BEVT obtient des résultats très prometteurs. Sur Kinetics 400, où la reconnaissance repose principalement sur des représentations spatiales discriminantes, BEVT atteint des performances comparables aux meilleurs modèles supervisés. Sur Something-Something-V2 et Diving 48, qui comprennent des vidéos dont la compréhension dépend fortement des dynamiques temporelles, BEVT dépasse clairement tous les modèles alternatifs et atteint des performances de pointe, avec des précisions Top-1 respectives de 71,4 % et 87,2 %. Le code source sera rendu disponible à l'adresse suivante : \url{https://github.com/xyzforever/BEVT}.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
BEVT : Pré-entraînement de Transformers vidéo avec BERT | Articles | HyperAI