Cadre unifié de reconnaissance d’actions basé sur les points clés grâce au regroupement structuré des points clés

Ce travail aborde simultanément trois limitations associées à la reconnaissance d'actions basée sur les squelettes conventionnels : les erreurs de détection et de suivi des squelettes, le manque de variété des actions ciblées, ainsi que la reconnaissance d'actions par personne et par image. Un paradigme d'apprentissage profond basé sur les nuages de points est introduit dans la reconnaissance d'actions, et un cadre unifié accompagné d'une nouvelle architecture de réseau neuronal profond appelée Structured Keypoint Pooling (agrégation structurée de points clés) est proposé. La méthode proposée agrège de manière éparse les caractéristiques des points clés selon une approche en cascade, en se basant sur des connaissances a priori de la structure des données (qui est inhérente aux squelettes), telles que les instances et les images auxquelles chaque point clé appartient, et atteint une robustesse face aux erreurs d'entrée. Son architecture moins contraignante et sans suivi permet un traitement efficace des séries temporelles de points clés composées de squelettes humains et de contours d'objets non humains sous forme de nuage de points 3D, ce qui étend la variété des actions ciblées. De plus, nous proposons une technique appelée Pooling-Switching Trick (astuce d'alternance du pooling) inspirée par l'agrégation structurée de points clés. Cette technique alterne entre les noyaux de pooling lors des phases d'entraînement et d'inférence pour détecter les actions par personne et par image de manière faiblement supervisée en utilisant uniquement des étiquettes d'action au niveau vidéo. Cette astuce permet à notre schéma d'entraînement d'introduire naturellement une nouvelle forme d'augmentation de données, qui mélange plusieurs nuages de points extraits à partir de vidéos différentes. Dans les expériences, nous vérifions exhaustivement l'efficacité de la méthode proposée face aux limitations mentionnées, et cette méthode surpasses les méthodes actuelles les plus performantes en matière de reconnaissance d'actions basée sur les squelettes et de localisation spatio-temporelle des actions.