HyperAIHyperAI
vor 11 Tagen

In meiner Sicht, in meinen Händen: Genauige egozentrische 2D-Handpose- und Aktenerkennung

Wiktor Mucha, Martin Kampel
In meiner Sicht, in meinen Händen: Genauige egozentrische 2D-Handpose- und Aktenerkennung
Abstract

Die Aktionserkennung ist für die Verständnis von egozentrischen Videos von entscheidender Bedeutung, da sie eine automatische und kontinuierliche Überwachung von Aktivitäten des täglichen Lebens (ADLs) ohne Benutzerbeteiligung ermöglicht. Die bestehende Forschung konzentriert sich hauptsächlich auf 3D-Handpose-Eingaben, die entweder rechenintensive Tiefenschätzungssysteme oder das Tragen unangenehmer Tiefensensoren erfordern. Im Gegensatz dazu existiert bisher nur unzureichend Forschung zum Verständnis von 2D-Handposes für die egozentrische Aktionserkennung, obwohl auf dem Markt bereits benutzerfreundliche Smart Glasses verfügbar sind, die ein einzelnes RGB-Bild aufnehmen können. Unser Forschungsansatz zielt darauf ab, diese Lücke zu schließen, indem er das Feld der 2D-Handpose-Schätzung für die egozentrische Aktionserkennung untersucht und zwei wesentliche Beiträge leistet. Erstens stellen wir zwei neuartige Ansätze zur 2D-Handpose-Schätzung vor: EffHandNet für die Einzelhand-Schätzung und EffHandEgoNet, speziell für die egozentrische Perspektive optimiert, um Interaktionen zwischen Händen und Objekten präzise zu erfassen. Beide Methoden übertrifft die Stand der Technik auf den öffentlichen Benchmarks H2O und FPHA. Zweitens präsentieren wir eine robuste Architektur zur Aktionserkennung auf Basis von 2D-Hand- und Objektposen. Diese Methode integriert EffHandEgoNet und einen auf Transformers basierenden Ansatz zur Aktionserkennung. Auf den Datensätzen H2O und FPHA evaluiert, erreicht unsere Architektur eine schnellere Inferenzzeit und eine Genauigkeit von 91,32 % bzw. 94,43 %, wodurch die bisherigen State-of-the-Art-Methoden, einschließlich 3D-basierter Ansätze, übertroffen werden. Unsere Arbeit zeigt, dass die Nutzung von 2D-Skelett-Daten eine zuverlässige und effektive Strategie für das egozentrische Aktionsverständnis darstellt. Umfangreiche Evaluierungen und Ablationsstudien verdeutlichen den Einfluss der Handpose-Schätzungsmethode sowie die Auswirkungen jedes Eingabedatentyps auf die Gesamtleistung.

In meiner Sicht, in meinen Händen: Genauige egozentrische 2D-Handpose- und Aktenerkennung | Neueste Forschungsarbeiten | HyperAI