Command Palette
Search for a command to run...
Réseaux de neurones CNN spatio-temporels segmentaires pour la segmentation d'actions fine
Réseaux de neurones CNN spatio-temporels segmentaires pour la segmentation d'actions fine
Lea Colin Reiter Austin Vidal Rene Hager Gregory D.
Résumé
La segmentation conjointe et la classification des actions à granularité fine sont essentielles pour des applications telles que l’interaction homme-robot, la surveillance vidéo et l’évaluation des compétences humaines. Toutefois, malgré les progrès récents importants dans la classification à grande échelle des actions, les performances des approches les plus avancées en reconnaissance d’actions à granularité fine restent limitées. Nous proposons un modèle de segmentation d’actions qui combine des caractéristiques spatio-temporelles de bas niveau avec un classificateur segmental de haut niveau. Notre réseau de neurones convolutifs spatio-temporels (CNN) se compose d’un composant spatial utilisant des filtres convolutifs pour capturer des informations sur les objets et leurs relations, ainsi qu’un composant temporel qui emploie de larges filtres convolutifs 1D afin de modéliser l’évolution des relations entre objets au fil du temps. Ces caractéristiques sont exploitées conjointement avec un modèle semi-Markovien qui modélise les transitions entre une action et une autre. Nous introduisons un algorithme d’inférence segmentale contrainte, efficace, dont la vitesse est plusieurs ordres de grandeur supérieure à celle de l’approche actuelle. Nous mettons en évidence l’efficacité de notre modèle Segmental Spatio-Temporal CNN sur des jeux de données d’actions culinaires et chirurgicales, où nous observons une amélioration significative des performances par rapport aux méthodes de référence récentes.