HyperAIHyperAI
il y a 15 jours

Prédiction de caractéristiques masquées pour l'apprentissage préalable supervisé par soi visuel

Chen Wei, Haoqi Fan, Saining Xie, Chao-Yuan Wu, Alan Yuille, Christoph Feichtenhofer
Prédiction de caractéristiques masquées pour l'apprentissage préalable supervisé par soi visuel
Résumé

Nous présentons Masked Feature Prediction (MaskFeat), une méthode d’entraînement préalable auto-supervisé pour les modèles vidéo. Notre approche consiste à masquer aléatoirement une partie de la séquence d’entrée, puis à prédire les caractéristiques des régions masquées. Nous étudions cinq types différents de caractéristiques et constatons que les Histogrammes de Gradient Orientés (HOG), une description de caractéristiques conçue manuellement, se distingue particulièrement par ses performances et son efficacité. Nous observons que la normalisation de contraste locale présente dans HOG est essentielle pour obtenir de bons résultats, ce qui est cohérent avec des travaux antérieurs utilisant HOG pour la reconnaissance visuelle. Notre méthode permet d’acquérir une connaissance visuelle riche et de piloter des modèles Transformer à grande échelle. Sans recourir à des poids supplémentaires ou à une supervision, MaskFeat entraîné sur des vidéos non étiquetées atteint des résultats sans précédent : 86,7 % sur Kinetics-400 avec MViT-L, 88,3 % sur Kinetics-600, 80,4 % sur Kinetics-700, 39,8 mAP sur AVA et 75,0 % sur SSv2. MaskFeat se généralise également à l’entrée d’images, interprétable comme une vidéo à une seule trame, et obtient des résultats compétitifs sur ImageNet.

Prédiction de caractéristiques masquées pour l'apprentissage préalable supervisé par soi visuel | Articles de recherche récents | HyperAI