HyperAIHyperAI
vor 2 Monaten

Echtzeit-Erkennung von Handgesten: Integration von skeletonbasierten Datenfusion und Multi-Stream-CNN

Yusuf, Oluwaleke ; Habib, Maki ; Moustafa, Mohamed
Echtzeit-Erkennung von Handgesten: Integration von skeletonbasierten Datenfusion und Multi-Stream-CNN
Abstract

Die Erkennung von Handgesten (HGR) ermöglicht intuitive Mensch-Computer-Interaktionen in verschiedenen realen Kontexten. Bestehende Frameworks haben jedoch oft Schwierigkeiten, die Echtzeitanforderungen zu erfüllen, die für praktische HGR-Anwendungen entscheidend sind. Diese Studie stellt ein robustes, auf Skelettdaten basierendes Framework für dynamische HGR vor, das die Erkennung dynamischer Handgesten in eine statische Bildklassifizierungsaufgabe vereinfacht und so sowohl die Hardware- als auch die Rechenanforderungen effektiv reduziert. Unser Framework nutzt eine Datenfusionstechnik auf Datenebene, um 3D-Skelettdaten aus dynamischen Gesten in statische RGB-Raum-Zeit-Bilder zu kodieren. Es integriert eine spezialisierte end-to-end Ensemble Tuner (e2eET) Multi-Stream CNN-Architektur, die semantische Verbindungen zwischen den Datendarstellungen optimiert und gleichzeitig die Rechenanforderungen minimiert. Bei Tests mit fünf Benchmark-Datensätzen (SHREC'17, DHG-14/28, FPHA, LMDHG und CNR) zeigte das Framework leistungsstarke Ergebnisse im Vergleich zum Stand der Technik. Seine Fähigkeit zur Unterstützung von Echtzeitanwendungen wurde durch die Bereitstellung auf Standard-PC-Hardware nachgewiesen, wobei es in realen Anwendungsszenarien niedrige Latenz und minimale Ressourcenverbrauch zeigte. Die erfolgreiche Implementierung dieses Frameworks unterstreicht dessen Potenzial zur Verbesserung von Echtzeitanwendungen in Bereichen wie Virtual/Augmented Reality, Ambient Intelligence und Assistive Technologies und bietet eine skalierbare und effiziente Lösung für die Erkennung dynamischer Gesten.