vor 2 Monaten

Zur Nutzen von 3D-Handpose für die Aktionserkennung

Shamil, Md Salman ; Chatterjee, Dibyadip ; Sener, Fadime ; Ma, Shugao ; Yao, Angela

Abstract

Die 3D-Handhaltung ist ein noch unterrepräsentierte Modalität für die Aktionserkennung. Haltungen sind kompakt und dennoch informativ und können Anwendungen mit begrenzten Rechenressourcen erheblich nutzen. Allerdings bieten Haltungen allein ein unvollständiges Verständnis von Aktionen, da sie nicht vollständig Objekte und Umgebungen erfassen können, mit denen Menschen interagieren. Wir schlagen HandFormer vor, einen neuen multimodalen Transformer, um Hand-Objekt-Interaktionen effizient zu modellieren. HandFormer kombiniert 3D-Handhaltungen mit hoher zeitlicher Auflösung für eine feingranulare Bewegungsmodellierung mit dünn besetzten RGB-Bildern zur Kodierung der Szenensemantik. Indem wir die einzigartigen Merkmale von Handhaltungen betrachten, faktorisieren wir die Modellierung der Hände zeitlich und stellen jeden Gelenk durch seine kurzfristigen Trajektorien dar. Diese faktorisierte Haltungsrepräsentation in Kombination mit dünn besetzten RGB-Proben ist bemerkenswert effizient und hochgenau. Ein unimodaler HandFormer, der nur auf Handhaltungen basiert, übertrifft bestehende skeletonbasierte Methoden bei einem Fünftel der FLOPs (floating point operations). Mit RGB-Bildern erreichen wir neue Standesbestleistungen (state-of-the-art) auf Assembly101 und H2O, wobei sich das Leistungsniveau bei der egozentrischen Aktionserkennung erheblich verbessert hat.