HyperAIHyperAI
vor 2 Monaten

Echtzeit-Erkennung und Klassifizierung von Handgesten mit Hilfe von Faltungsneuronalen Netzen

Okan Köpüklü; Ahmet Gunduz; Neslihan Kose; Gerhard Rigoll
Echtzeit-Erkennung und Klassifizierung von Handgesten mit Hilfe von Faltungsneuronalen Netzen
Abstract

Die Echtzeit-Erkennung dynamischer Handgesten aus Videostreams ist eine herausfordernde Aufgabe, da (i) es keine Indikation gibt, wann eine Geste im Video beginnt und endet, (ii) ausgeführte Gesten nur einmal erkannt werden sollten und (iii) die gesamte Architektur unter Berücksichtigung des Speicher- und Energiebudgets entworfen sein sollte. In dieser Arbeit adressieren wir diese Herausforderungen durch den Vorschlag einer hierarchischen Struktur, die es Offline-fähigen Faltungsneuralnetzen (CNN) ermöglicht, durch den Einsatz eines Gleitfensters effizient Online zu arbeiten. Die vorgeschlagene Architektur besteht aus zwei Modellen: (1) Ein Detektor, der eine leichtgewichtige CNN-Architektur ist, um Gesten zu erkennen und (2) ein Klassifizierer, der ein tiefes CNN ist, um die erkannten Gesten zu klassifizieren. Um die Einzelerkennungen der detektierten Gesten zu bewerten, schlagen wir vor, den Levenshtein-Abstand als Bewertungsmaßstab zu verwenden, da er Fehlklassifikationen, mehrfache Erkennungen und fehlende Erkennungen gleichzeitig messen kann. Wir evaluieren unsere Architektur anhand zweier öffentlich zugänglicher Datensätze – EgoGesture und NVIDIA Dynamic Hand Gesture Datasets –, die eine zeitliche Detektion und Klassifikation der ausgeführten Handgesten erfordern. Das ResNeXt-101-Modell, das als Klassifizierer verwendet wird, erreicht einen Stand-of-the-Art Offline-Klassifikationsgenauigkeit von 94,04 % und 83,82 % für die Tiefenschablone auf den EgoGesture- und NVIDIA-Benchmarks jeweils. Bei der Echtzeit-Detektion und -Klassifikation erhalten wir bedeutende frühe Erkennungen und erreichen dabei Leistungen nahe am Offline-Betrieb. Der Code und die vortrainierten Modelle dieser Arbeit sind öffentlich zugänglich.请注意,"Tiefenschablone" 是 "depth modality" 的一种可能翻译,但更常见的翻译可能是 "Tiefenmodus". 如果您有特定的偏好,请告知我。