HyperAIHyperAI

Command Palette

Search for a command to run...

Prédiction de caractéristiques masquées pour l'apprentissage préalable supervisé par soi visuel

Chen Wei Haoqi Fan Saining Xie Chao-Yuan Wu Alan Yuille Christoph Feichtenhofer

Résumé

Nous présentons Masked Feature Prediction (MaskFeat), une méthode d’entraînement préalable auto-supervisé pour les modèles vidéo. Notre approche consiste à masquer aléatoirement une partie de la séquence d’entrée, puis à prédire les caractéristiques des régions masquées. Nous étudions cinq types différents de caractéristiques et constatons que les Histogrammes de Gradient Orientés (HOG), une description de caractéristiques conçue manuellement, se distingue particulièrement par ses performances et son efficacité. Nous observons que la normalisation de contraste locale présente dans HOG est essentielle pour obtenir de bons résultats, ce qui est cohérent avec des travaux antérieurs utilisant HOG pour la reconnaissance visuelle. Notre méthode permet d’acquérir une connaissance visuelle riche et de piloter des modèles Transformer à grande échelle. Sans recourir à des poids supplémentaires ou à une supervision, MaskFeat entraîné sur des vidéos non étiquetées atteint des résultats sans précédent : 86,7 % sur Kinetics-400 avec MViT-L, 88,3 % sur Kinetics-600, 80,4 % sur Kinetics-700, 39,8 mAP sur AVA et 75,0 % sur SSv2. MaskFeat se généralise également à l’entrée d’images, interprétable comme une vidéo à une seule trame, et obtient des résultats compétitifs sur ImageNet.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp