Hierarchischer zeitlicher Transformer für die 3D-Handpose-Schätzung und Aktionserkennung aus egozentrischen RGB-Videos

Die Erkennung dynamischer Handbewegungen und -aktionen aus egozentrischen RGB-Videos stellt aufgrund von Selbstverdeckung und Ambiguität eine grundlegende, jedoch herausfordernde Aufgabe dar. Um Verdeckung und Ambiguität zu bewältigen, entwickeln wir einen Transformer-basierten Ansatz, der zeitliche Informationen effektiv nutzt, um eine robuste Schätzung zu ermöglichen. Angesichts der unterschiedlichen zeitlichen Granularität sowie der semantischen Korrelation zwischen der Schätzung der Handpose und der Aktionserkennung konstruieren wir eine Netzwerk-Hierarchie mit zwei hintereinander geschalteten Transformer-Encodern. Der erste Encoder nutzt kurzfristige zeitliche Hinweise zur Schätzung der Handpose, während der zweite über einen längeren Zeitraum hinweg pro-frame-Handpose- und Objektinformationen aggregiert, um die Aktion zu erkennen. Unser Ansatz erzielt wettbewerbsfähige Ergebnisse auf zwei Benchmarks für erste-Perspektive-Handaktionen, nämlich FPHA und H2O. Umfangreiche Ablationsstudien bestätigen die Richtigkeit unserer Designentscheidungen.