HyperAIHyperAI

Command Palette

Search for a command to run...

Stable Mean Teacher pour la Détection d'Actions Vidéo Semi-supervisée

Akash Kumar Sirshapan Mitra Yogesh Singh Rawat

Résumé

Dans cette étude, nous nous concentrons sur l'apprentissage semi-supervisé pour la détection d'actions dans les vidéos. La détection d'actions dans les vidéos nécessite une localisation spatio-temporelle en plus de la classification, et un nombre limité d'étiquettes rend le modèle vulnérable à des prédictions non fiables. Nous présentons Stable Mean Teacher, un cadre simple et intégré basé sur un enseignant qui bénéficie d'étiquettes pseudo améliorées et temporellement cohérentes. Ce cadre repose sur un nouveau module de Récupération d'Erreurs (Error Recovery, EoR), qui apprend des erreurs des étudiants sur les échantillons étiquetés et transfère ces connaissances à l'enseignant pour améliorer les étiquettes pseudo pour les échantillons non étiquetés. De plus, les pertes spatio-temporelles existantes ne prennent pas en compte la cohérence temporelle et sont sujettes à des incohérences temporelles. Pour remédier à cela, nous introduisons la Différence de Pixels (Difference of Pixels, DoP), une contrainte simple et novatrice axée sur la cohérence temporelle, conduisant à des détections temporelles cohérentes. Nous évaluons notre approche sur quatre différents benchmarks de détection spatio-temporelle : UCF101-24, JHMDB21, AVA et YouTube-VOS. Notre méthode surpassent les méthodes supervisées de base pour la détection d'actions avec une marge moyenne de 23,5 % sur UCF101-24, 16 % sur JHMDB21 et 3,3 % sur AVA. En utilisant seulement 10 % et 20 % des données respectivement, elle offre des performances compétitives par rapport aux méthodes supervisées de base formées avec 100 % des annotations sur UCF101-24 et JHMDB21. Nous évaluons également son efficacité sur AVA pour l'échelle aux grands ensembles de données et sur YouTube-VOS pour le segmention d'objets dans les vidéos, démontrant ainsi sa capacité de généralisation à d'autres tâches dans le domaine vidéo. Le code source et les modèles sont disponibles publiquement.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp