Représentations tensorielles pour la reconnaissance d'actions

Les actions humaines dans les séquences vidéo sont caractérisées par l’interplay complexe entre les caractéristiques spatiales et leurs dynamiques temporelles. Dans cet article, nous proposons de nouvelles représentations tensorielles permettant de capturer de manière compacte ces relations d’ordre supérieur entre les caractéristiques visuelles, dans le cadre de la reconnaissance d’actions. Nous introduisons deux représentations basées sur les tenseurs : (i) le noyau de compatibilité de séquence (SCK) et (ii) le noyau de compatibilité dynamique (DCK). Le SCK exploite les corrélations spatio-temporelles entre les caractéristiques, tandis que le DCK modélise explicitement la dynamique de l’action au sein d’une séquence. Nous explorons également une généralisation du SCK, appelée SCK(+), qui opère sur des sous-séquences afin de capturer l’interplay local-global des corrélations, pouvant intégrer des entrées multimodales, telles que les squelettes constitués de joints corporels 3D et les scores de classification par image issus de modèles d’apprentissage profond entraînés sur des vidéos. Nous introduisons une linéarisation de ces noyaux, conduisant à des descripteurs compacts et rapides. Des expériences sont menées sur (i) des séquences d’actions basées sur des squelettes 3D, (ii) des séquences vidéo à très fine-grain, et (iii) des vidéos standards non fines. Étant donné que nos représentations finales sont des tenseurs capturant des relations d’ordre supérieur entre les caractéristiques, elles sont liées aux co-occurrences pour une reconnaissance robuste à très fine-grain. En utilisant des tenseurs d’ordre supérieur ainsi que ce qu’on appelle la normalisation par puissance des valeurs propres (EPN), longtemps supposée capable de détecter spectralement les occurrences d’ordre supérieur, nous parvenons ainsi à identifier des relations fines entre caractéristiques, au-delà d’un simple comptage dans les séquences d’actions. Nous démontrons qu’un tenseur d’ordre r, construit à partir de caractéristiques de dimension Z, couplé à l’EPN, détecte effectivement si au moins une occurrence d’ordre supérieur est « projetée » dans l’un des sous-espaces binom(Z,r) de dimension r représentés par le tenseur, formant ainsi une métrique de normalisation par puissance tensorielle dotée de binom(Z*,r) tels « détecteurs ».