Apprentissage semi-supervisé de bout en bout pour la détection d'actions dans les vidéos

Dans cette étude, nous nous concentrons sur l'apprentissage semi-supervisé pour la détection d'actions dans les vidéos, qui utilise à la fois des données étiquetées et non étiquetées. Nous proposons une approche simple basée sur la cohérence de bout en bout qui exploite efficacement les données non étiquetées. La détection d'actions dans les vidéos nécessite à la fois la prédiction de classes d'actions et une localisation spatio-temporelle des actions. Par conséquent, nous examinons deux types de contraintes : la cohérence de classification et la cohérence spatio-temporelle. La présence de zones de fond prédominantes et statiques dans une vidéo rend difficile l'utilisation de la cohérence spatio-temporelle pour la détection d'actions. Pour remédier à cela, nous proposons deux nouvelles contraintes de régularisation pour la cohérence spatio-temporelle : 1) la cohérence temporelle (temporal coherency), et 2) la régularité du gradient (gradient smoothness). Ces deux aspects exploitent la continuité temporelle des actions dans les vidéos et se sont révélés efficaces pour utiliser des vidéos non étiquetées dans le cadre de la détection d'actions. Nous démontrons l'efficacité de notre approche sur deux jeux de données de référence différents pour la détection d'actions, UCF101-24 et JHMDB-21. De plus, nous montrons également l'efficacité de notre approche pour le segmention d'objets dans les vidéos sur le dataset Youtube-VOS, ce qui illustre sa capacité à généraliser. Notre approche atteint des performances compétitives en utilisant seulement 20% des annotations sur UCF101-24 par rapport aux méthodes entièrement supervisées récentes. Sur UCF101-24, elle améliore le score respectivement de +8,9% et +11% au niveau du f-mAP 0,5 et du v-mAP par rapport à l'approche supervisée.