Command Palette
Search for a command to run...
ActionVLAD : apprentissage de l’agrégation spatio-temporelle pour la classification des actions
ActionVLAD : apprentissage de l’agrégation spatio-temporelle pour la classification des actions
Girdhar Rohit Ramanan Deva Gupta Abhinav Sivic Josef Russell Bryan
Résumé
Dans ce travail, nous proposons une nouvelle représentation vidéo pour la classification d’actions, qui consiste à agréger les caractéristiques locales issues de convolutions sur l’ensemble de l’étendue spatio-temporelle de la vidéo. Pour cela, nous combinons des réseaux à deux voies d’avant-garde avec une agrégation de caractéristiques spatio-temporelles apprenables. L’architecture résultante est entraînable de manière end-to-end pour la classification sur l’ensemble de la vidéo. Nous étudions différentes stratégies de pooling à la fois dans l’espace et dans le temps, ainsi que diverses méthodes de combinaison des signaux provenant des différentes voies. Nous constatons que : (i) il est crucial de réaliser un pooling conjoint dans l’espace et dans le temps, mais que (ii) les voies d’apparence et de mouvement sont mieux représentées par des agrégations séparées. Enfin, nous démontrons que notre représentation dépasse largement l’architecture de base à deux voies (amélioration relative de 13 %) ainsi que d’autres méthodes de référence utilisant des architectures de base comparables, sur les benchmarks de classification vidéo HMDB51, UCF101 et Charades.