HyperAIHyperAI
il y a 8 jours

Fusion de représentations de posture et de position pour la reconnaissance de gestes manuels à partir de nuages de points

{Mattias P Heinrich, Alexander Bigalke}
Résumé

La reconnaissance des gestes manuels peut bénéficier du traitement direct des séquences de nuages de points 3D, qui contiennent des informations géométriques riches et permettent d’apprendre des caractéristiques spatio-temporelles expressives. Toutefois, les modèles à flux unique actuellement utilisés ne parviennent pas à capturer efficacement des caractéristiques multi-échelles incluant à la fois les variations locales fines de posture et les mouvements globaux de la main. Nous proposons donc un nouveau modèle à double flux, qui décompose l’apprentissage des caractéristiques locales et globales. Ces dernières sont finalement fusionnées dans un LSTM pour modéliser les dynamiques temporelles. Afin d’inciter les flux local et global à capturer des caractéristiques complémentaires de position et de posture, nous proposons d’utiliser des architectures d’apprentissage 3D différentes dans chaque flux. Plus précisément, les réseaux d’état de l’art sur les nuages de points se distinguent par leur capacité à capter les variations subtiles de posture à partir de nuages bruts dans le flux local. Pour suivre les mouvements de la main dans le flux global, nous combinons une encodage basée sur des ensembles de points de base résiduels avec un DenseNet entièrement connecté. Nous évaluons notre méthode sur les jeux de données Shrec'17 et DHG, et rapportons des résultats de pointe avec un coût computationnel réduit. Le code source est disponible à l’adresse suivante : https://github.com/multimodallearning/hand-gesture-posture-position.