HyperAIHyperAI
il y a un mois

Flux de Scène vers Carte d'Action : Une Nouvelle Représentation pour la Reconnaissance d'Actions basée sur RGB-D avec des Réseaux Neuronaux Convolutifs

Pichao Wang; Wanqing Li; Zhimin Gao; Yuyao Zhang; Chang Tang; Philip Ogunbona
Flux de Scène vers Carte d'Action : Une Nouvelle Représentation pour la Reconnaissance d'Actions basée sur RGB-D avec des Réseaux Neuronaux Convolutifs
Résumé

Le flux de scène décrit le mouvement d'objets en trois dimensions dans le monde réel et pourrait potentiellement constituer une bonne caractéristique pour la reconnaissance d'actions en 3D. Cependant, son utilisation pour la reconnaissance d'actions, en particulier dans le contexte des réseaux neuronaux convolutifs (ConvNets), n'a pas été précédemment étudiée. Dans cet article, nous proposons l'extraction et l'utilisation du flux de scène pour la reconnaissance d'actions à partir de données RGB-D. Les travaux antérieurs ont considéré les modalités profondeur et RGB comme des canaux distincts et ont extrait des caractéristiques pour une fusion ultérieure. Nous adoptons une approche différente en considérant les modalités comme une entité unique, ce qui permet une extraction de caractéristiques pour la reconnaissance d'actions dès le début.Deux questions clés concernant l'utilisation du flux de scène pour la reconnaissance d'actions sont abordées : comment organiser les vecteurs de flux de scène et comment représenter les dynamiques à long terme des vidéos basées sur le flux de scène. Pour calculer correctement le flux de scène sur les jeux de données disponibles, nous proposons une méthode efficace d'autocalibration afin d'aligner spatialement les données RGB et profondeur sans connaître les paramètres de la caméra. Sur la base des vecteurs de flux de scène, nous proposons une nouvelle représentation, appelée Carte Flux Scène vers Action (SFAM), qui décrit plusieurs dynamiques spatio-temporelles à long terme pour la reconnaissance d'actions.Nous utilisons un noyau de transformation par canaux pour transformer les vecteurs de flux de scène vers un espace colorimétrique optimal similaire au RGB. Cette transformation optimise l'utilisation des modèles ConvNets entraînés sur ImageNet. Les résultats expérimentaux montrent que cette nouvelle représentation peut surpasser les performances des méthodes actuelles sur deux grands jeux de données publics.

Flux de Scène vers Carte d'Action : Une Nouvelle Représentation pour la Reconnaissance d'Actions basée sur RGB-D avec des Réseaux Neuronaux Convolutifs | Articles de recherche récents | HyperAI