Command Palette
Search for a command to run...
Reconnaissance d'actions à l'aide de descripteurs profonds convolutifs agrégés par trajectoire
Reconnaissance d'actions à l'aide de descripteurs profonds convolutifs agrégés par trajectoire
Wang Limin Qiao Yu Tang Xiaoou
Résumé
Les caractéristiques visuelles jouent un rôle fondamental dans la compréhension des actions humaines à partir de vidéos. Ce papier présente une nouvelle représentation vidéo, appelée descripteur convolutif profond à agrégation par trajectoire (TDD, trajectory-pooled deep-convolutional descriptor), qui combine les avantages des descripteurs conçus manuellement et des descripteurs appris par apprentissage profond. Plus précisément, nous utilisons des architectures profondes pour apprendre des cartes de caractéristiques convolutives discriminantes, puis appliquons une opération d’agrégation contrainte par trajectoire afin de regrouper ces caractéristiques convolutives en des descripteurs efficaces. Pour améliorer la robustesse des TDD, nous proposons deux méthodes de normalisation visant à transformer les cartes de caractéristiques convolutives : la normalisation spatio-temporelle et la normalisation par canal. Les avantages de nos descripteurs proviennent de (i) leur apprentissage automatique, qui leur confère une capacité discriminative supérieure à celle des descripteurs traditionnels ; (ii) leur prise en compte des caractéristiques intrinsèques de la dimension temporelle, ainsi que l’introduction de stratégies d’échantillonnage et d’agrégation contraintes par trajectoire pour combiner les caractéristiques apprises profondément. Nous menons des expériences sur deux jeux de données exigeants : HMDB51 et UCF101. Les résultats expérimentaux montrent que les TDD surpassent à la fois les descripteurs manuels précédents et les descripteurs appris par apprentissage profond. Notre méthode atteint également des performances supérieures à l’état de l’art sur ces jeux de données (65,9 % sur HMDB51, 91,5 % sur UCF101).