Adaptation de domaine vidéo non supervisée avec pré-entraînement masqué et auto-entraînement collaboratif

Dans ce travail, nous abordons le problème de l’adaptation de domaine non supervisée (UDA) pour la reconnaissance d’actions vidéo. Notre approche, que nous appelons UNITE, utilise un modèle enseignant image pour adapter un modèle élève vidéo au domaine cible. UNITE commence par une pré-formation auto-supervisée, visant à promouvoir l’apprentissage de caractéristiques discriminatives sur les vidéos du domaine cible grâce à une objectif de distillation masquée guidée par l’enseignant. Ensuite, nous réalisons une auto-formation sur les données cibles masquées, en combinant le modèle élève vidéo et le modèle enseignant image pour générer des pseudo-étiquettes améliorées pour les vidéos cibles non étiquetées. Notre processus d’auto-formation exploite efficacement les forces des deux modèles, permettant ainsi d’obtenir de fortes performances de transfert entre domaines. Nous évaluons notre approche sur plusieurs benchmarks d’adaptation de domaine vidéo et observons des améliorations significatives par rapport aux résultats précédemment rapportés.