Apprentissage de caractéristiques de co-occurrence à partir de données squelettiques pour la reconnaissance et la détection d'actions avec agrégation hiérarchique

La reconnaissance d'actions humaines basée sur le squelette a récemment suscité un intérêt croissant grâce à la disponibilité de grands ensembles de données squelettiques. Les facteurs les plus cruciaux pour cette tâche se situent dans deux aspects : la représentation intra-image des co-occurrences articulaires et la représentation inter-images de l'évolution temporelle des squelettes. Dans cet article, nous proposons un cadre d'apprentissage de caractéristiques de co-occurrence convolutif de bout en bout. Les caractéristiques de co-occurrence sont apprises selon une méthodologie hiérarchique, où différentes niveaux d'informations contextuelles sont progressivement agrégées. Tout d'abord, les informations au niveau des points de chaque articulation sont encodées indépendamment. Ensuite, elles sont assemblées en une représentation sémantique dans les domaines spatiaux et temporels. Plus précisément, nous introduisons un schéma d'agrégation spatiale globale, capable d'apprendre des caractéristiques de co-occurrence articulaire supérieures à celles obtenues par l'agrégation locale. De plus, les coordonnées brutes du squelette ainsi que leurs différences temporelles sont intégrées selon un paradigme à double flux (two-stream). Les expériences montrent que notre approche surpasse constamment les autres méthodes de pointe sur des benchmarks de reconnaissance et détection d'actions tels que NTU RGB+D, SBU Kinect Interaction et PKU-MMD.