Reconnaissance d'actions avec des descripteurs deep-convolutionnels agrégés par trajectoire

Les caractéristiques visuelles sont d'une importance cruciale pour la compréhension des actions humaines dans les vidéos. Cet article présente une nouvelle représentation vidéo appelée descripteur de profondeur convolutive à trajectoire regroupée (TDD), qui combine les avantages des caractéristiques conçues manuellement et des caractéristiques apprises en profondeur. Plus précisément, nous utilisons des architectures profondes pour apprendre des cartes de caractéristiques convolutives discriminantes, puis nous effectuons un regroupement contraint par trajectoire afin d'agréger ces caractéristiques convolutives en descripteurs efficaces. Pour améliorer la robustesse des TDDs, nous avons conçu deux méthodes de normalisation pour transformer les cartes de caractéristiques convolutives : la normalisation spatio-temporelle et la normalisation par canal. Les avantages de nos caractéristiques proviennent de (i) le fait que les TDDs sont appris automatiquement et possèdent une capacité discriminante élevée comparativement aux caractéristiques conçues manuellement ; (ii) le fait que les TDDs prennent en compte les caractéristiques intrinsèques de la dimension temporelle et introduisent des stratégies d'échantillonnage et de regroupement contraints par trajectoire pour agréger les caractéristiques apprises en profondeur. Nous menons des expériences sur deux jeux de données difficiles : HMDB51 et UCF101. Les résultats expérimentaux montrent que les TDDs surpassent les caractéristiques conçues manuellement et celles apprises en profondeur précédemment utilisées. Notre méthode atteint également des performances supérieures à l'état de l'art sur ces jeux de données (65,9 % pour HMDB51 et 91,5 % pour UCF101).