HyperAIHyperAI
il y a 2 mois

ÉTAPE : Apprentissage progressif spatio-temporel pour la détection d'actions vidéo

Xitong Yang; Xiaodong Yang; Ming-Yu Liu; Fanyi Xiao; Larry Davis; Jan Kautz
ÉTAPE : Apprentissage progressif spatio-temporel pour la détection d'actions vidéo
Résumé

Dans cet article, nous proposons le détecteur d'actions Spatio-Temporel Progressif (STEP) --- un cadre d'apprentissage progressif pour la détection spatio-temporelle des actions dans les vidéos. Partant d'un petit nombre de propositions cubiques à grande échelle, notre approche affine progressivement ces propositions vers les actions au cours de plusieurs étapes. De cette manière, des propositions de haute qualité (c'est-à-dire, conformes aux mouvements des actions) peuvent être obtenues graduellement à des étapes ultérieures en utilisant les sorties de régression des étapes précédentes. À chaque étape, nous adaptons de manière dynamique l'extension temporelle des propositions afin d'intégrer davantage de contexte temporel pertinent. Comparativement aux travaux antérieurs qui effectuent la détection d'actions en une seule passe, notre cadre d'apprentissage progressif est capable de gérer naturellement le déplacement spatial au sein des tubes d'action et offre donc une méthode plus efficace pour la modélisation spatio-temporelle. Nous évaluons notre approche de manière extensive sur les jeux de données UCF101 et AVA, et démontrons des résultats de détection supérieurs. Notamment, nous atteignons un mAP de 75,0 % et 18,6 % sur ces deux jeux de données avec 3 étapes progressives et en utilisant respectivement seulement 11 et 34 propositions initiales.

ÉTAPE : Apprentissage progressif spatio-temporel pour la détection d'actions vidéo | Articles de recherche récents | HyperAI