vor einem Monat

Bewegungsfusionierte Frames: Datenfusionstrategie für die Erkennung von Handgesten

Okan Köpüklü; Neslihan Köse; Gerhard Rigoll

Abstract

Die Erfassung von räumlich-zeitlichen Zuständen einer Aktion ist der entscheidendste Schritt für die Aktionserkennung. In dieser Arbeit schlagen wir eine Datenfusionstrategie vor, die Motion Fused Frames (MFFs), welche entwickelt wurde, um Bewegungsinformationen in statische Bilder zu integrieren, um diese als bessere Repräsentanten der räumlich-zeitlichen Zustände einer Aktion zu verwenden. MFFs können mit minimalen Anpassungen am Netzwerk als Eingabe für jede tiefenlernbasierte Architektur verwendet werden. Wir evaluieren MFFs anhand von Handgestenerkennungsaufgaben unter Verwendung dreier Video-Datensätze – Jester, ChaLearn LAP IsoGD und NVIDIA Dynamic Hand Gesture Datasets –, die langfristige zeitliche Beziehungen von Handbewegungen erfassen müssen. Unser Ansatz erzielt sehr wettbewerbsfähige Ergebnisse auf den Benchmarks Jester und ChaLearn mit Klassifikationsgenauigkeiten von 96,28 % und 57,4 % respektive und erreicht gleichzeitig den Stand der Technik mit einer Genauigkeit von 84,7 % auf dem NVIDIA-Benchmark.