HyperAIHyperAI
il y a 2 mois

ActionVLAD : Apprentissage de l'agrégation spatio-temporelle pour la classification des actions

Girdhar, Rohit ; Ramanan, Deva ; Gupta, Abhinav ; Sivic, Josef ; Russell, Bryan
ActionVLAD : Apprentissage de l'agrégation spatio-temporelle pour la classification des actions
Résumé

Dans cette étude, nous présentons une nouvelle représentation vidéo pour la classification d'actions qui agrège les caractéristiques locales de convolution sur l'ensemble de l'étendue spatio-temporelle de la vidéo. Nous le faisons en intégrant des réseaux à deux flux d'avant-garde avec une agrégation spatio-temporelle apprenable. L'architecture résultante est entièrement entraînable pour la classification de vidéos complètes. Nous examinons différentes stratégies pour le pooling spatial et temporel ainsi que pour la combinaison des signaux issus des différents flux. Nous constatons que : (i) il est important d'effectuer le pooling conjointement dans l'espace et le temps, mais (ii) les flux d'apparence et de mouvement sont mieux agrégés dans leurs propres représentations séparées. Enfin, nous montrons que notre représentation surpass largement l'architecture de base à deux flux (avec une amélioration relative de 13 %) et outrepasse également d'autres baselines avec des architectures de base comparables sur les benchmarks de classification vidéo HMDB51, UCF101 et Charades.

ActionVLAD : Apprentissage de l'agrégation spatio-temporelle pour la classification des actions | Articles de recherche récents | HyperAI