HyperAIHyperAI
vor 2 Monaten

Skelettbasierte Gestenerkennung mit mehreren vollständig verbundenen Schichten, Pfadunterschriftsmerkmalen und zeitlichem Transformer-Modul

Chenyang Li; Xin Zhang; Lufan Liao; Lianwen Jin; Weixin Yang
Skelettbasierte Gestenerkennung mit mehreren vollständig verbundenen Schichten, Pfadunterschriftsmerkmalen und zeitlichem Transformer-Modul
Abstract

Die skelettbasierte Gestenerkennung gewinnt aufgrund ihrer vielfältigen Anwendungsmöglichkeiten zunehmende Popularität. Die wesentlichen Herausforderungen bestehen darin, diskriminierende Merkmale zu extrahieren und ein Klassifikationsmodell zu entwerfen. In dieser Arbeit nutzen wir zunächst einen robusten Merkmalsdeskriptor, die Pfadsignatur (Path Signature, PS), und schlagen drei PS-Merkmale vor, um die räumlichen und zeitlichen Bewegungscharakteristika explizit darzustellen: räumliche PS (Spatial Path Signature, S_PS), zeitliche PS (Temporal Path Signature, T_PS) und zeitlich-räumliche PS (Temporal Spatial Path Signature, T_S_PS). Angesichts der Bedeutung feiner Handbewegungen bei Gesten schlagen wir das Prinzip „Aufmerksamkeit auf die Hand“ (Attention on Hand, AOH) vor, um Gelenkpaaare für die S_PS zu definieren und einzelne Gelenke für die T_PS auszuwählen. Zudem wird die dyadische Methode angewendet, um T_PS- und T_S_PS-Merkmale zu extrahieren, die globale und lokale zeitliche Dynamiken in der Bewegung kodieren. Zweitens stellt das Klassifikationsmodell auch ohne rekurrente Strategie weiterhin Herausforderungen bei der zeitlichen Variation zwischen verschiedenen Sequenzen dar. Wir schlagen ein neues zeitliches Transformer-Modul (Temporal Transformer Module, TTM) vor, das durch das Lernen des zeitlichen Verschiebeparameters für jede Eingabe die Schlüsselbilder der Sequenz abstimmen kann. Dies ist ein lernbasiertes Modul, das in eine Standard-Neuronales-Netz-Architektur integriert werden kann. Schließlich entwerfen wir ein mehrstrangiges Netzwerk mit vollständig verbundenen Schichten, um räumliche und zeitliche Merkmale getrennt zu behandeln und sie dann zur Erzeugung des endgültigen Ergebnisses zusammenzuführen. Unser Verfahren wurde an drei Benchmark-Gestendatensätzen getestet: ChaLearn 2016, ChaLearn 2013 und MSRC-12. Die experimentellen Ergebnisse zeigen, dass wir den Stand der Technik in der skelettbasierten Gestenerkennung erreichen und dabei eine hohe Recheneffizienz erzielen.

Skelettbasierte Gestenerkennung mit mehreren vollständig verbundenen Schichten, Pfadunterschriftsmerkmalen und zeitlichem Transformer-Modul | Neueste Forschungsarbeiten | HyperAI