HyperAIHyperAI
il y a 2 mois

Stable Mean Teacher pour la Détection d'Actions Vidéo Semi-supervisée

Kumar, Akash ; Mitra, Sirshapan ; Rawat, Yogesh Singh
Stable Mean Teacher pour la Détection d'Actions Vidéo Semi-supervisée
Résumé

Dans cette étude, nous nous concentrons sur l'apprentissage semi-supervisé pour la détection d'actions dans les vidéos. La détection d'actions dans les vidéos nécessite une localisation spatio-temporelle en plus de la classification, et un nombre limité d'étiquettes rend le modèle vulnérable à des prédictions non fiables. Nous présentons Stable Mean Teacher, un cadre simple et intégré basé sur un enseignant qui bénéficie d'étiquettes pseudo améliorées et temporellement cohérentes. Ce cadre repose sur un nouveau module de Récupération d'Erreurs (Error Recovery, EoR), qui apprend des erreurs des étudiants sur les échantillons étiquetés et transfère ces connaissances à l'enseignant pour améliorer les étiquettes pseudo pour les échantillons non étiquetés. De plus, les pertes spatio-temporelles existantes ne prennent pas en compte la cohérence temporelle et sont sujettes à des incohérences temporelles. Pour remédier à cela, nous introduisons la Différence de Pixels (Difference of Pixels, DoP), une contrainte simple et novatrice axée sur la cohérence temporelle, conduisant à des détections temporelles cohérentes. Nous évaluons notre approche sur quatre différents benchmarks de détection spatio-temporelle : UCF101-24, JHMDB21, AVA et YouTube-VOS. Notre méthode surpassent les méthodes supervisées de base pour la détection d'actions avec une marge moyenne de 23,5 % sur UCF101-24, 16 % sur JHMDB21 et 3,3 % sur AVA. En utilisant seulement 10 % et 20 % des données respectivement, elle offre des performances compétitives par rapport aux méthodes supervisées de base formées avec 100 % des annotations sur UCF101-24 et JHMDB21. Nous évaluons également son efficacité sur AVA pour l'échelle aux grands ensembles de données et sur YouTube-VOS pour le segmention d'objets dans les vidéos, démontrant ainsi sa capacité de généralisation à d'autres tâches dans le domaine vidéo. Le code source et les modèles sont disponibles publiquement.