DropMAE : Apprentissage de représentations par auto-encodeurs masqués avec suppression par attention spatiale pour les tâches de correspondance temporelle

Cet article étudie l’entraînement préalable vidéo par autoencodeur masqué (MAE) pour diverses tâches ultérieures basées sur l’alignement temporel, notamment les tâches de suivi d’objets au niveau objet, telles que le suivi d’objets vidéo (VOT) et la segmentation d’objets vidéo (VOS), l’apprentissage non supervisé de correspondances visuelles, les tâches de suivi dense telles que l’estimation du flux optique et le suivi à long terme de points, ainsi que le suivi de nuages de points 3D. Plus précisément, notre travail explore la mise en œuvre d’une représentation générale afin d’améliorer la capacité d’alignement temporel dans diverses tâches de suivi ultérieures. Pour atteindre cet objectif, nous constatons tout d’abord qu’une extension simple du MAE — qui masque aléatoirement des patches d’images dans les vidéos et reconstruit les pixels des cadres — dépend fortement des indices spatiaux tout en ignorant les relations temporelles lors de la reconstruction des cadres, conduisant ainsi à des représentations temporelles sous-optimales pour l’alignement. Pour atténuer ce problème, nous proposons DropMAE, une méthode qui applique de manière adaptative une suppression par attention spatiale pendant la reconstruction des cadres, afin de favoriser l’apprentissage des correspondances temporelles dans les vidéos. Grâce à DropMAE, nous obtenons plusieurs résultats significatifs : 1) DropMAE constitue un apprenant efficace et puissant de correspondances temporelles, atteignant de meilleurs résultats en fine-tuning sur les tâches basées sur l’alignement que le MAE entraîné sur ImageNet, tout en offrant une vitesse d’entraînement préalable deux fois plus rapide ; 2) DropMAE est efficace pour diverses tâches de suivi, y compris les tâches d’alignement au niveau objet (VOT, VOS), les tâches de suivi dense (estimation du flux optique, suivi de tout point, TAP), ainsi que le suivi 3D sur des données de nuages de points de modalités différentes. Étant donné qu’aucun modèle pré-entraîné n’existe à ce jour pour ces tâches, nous avons développé des détecteurs basés sur ViT pour différentes tâches ultérieures de suivi, et notre modèle pré-entraîné DropMAE peut être directement chargé dans ces détecteurs ViT pour le fine-tuning, sans nécessiter de modification supplémentaire. Des expériences menées sur six tâches de suivi ultérieures démontrent l’efficacité de DropMAE comme représentation pré-entraînée générale pour des tâches de suivi diverses.