HyperAIHyperAI

Command Palette

Search for a command to run...

Hierarchischer zeitlicher Transformer für die 3D-Handpose-Schätzung und Aktionserkennung aus egozentrischen RGB-Videos

Yilin Wen Hao Pan Lei Yang Jia Pan Taku Komura Wenping Wang

Zusammenfassung

Die Erkennung dynamischer Handbewegungen und -aktionen aus egozentrischen RGB-Videos stellt aufgrund von Selbstverdeckung und Ambiguität eine grundlegende, jedoch herausfordernde Aufgabe dar. Um Verdeckung und Ambiguität zu bewältigen, entwickeln wir einen Transformer-basierten Ansatz, der zeitliche Informationen effektiv nutzt, um eine robuste Schätzung zu ermöglichen. Angesichts der unterschiedlichen zeitlichen Granularität sowie der semantischen Korrelation zwischen der Schätzung der Handpose und der Aktionserkennung konstruieren wir eine Netzwerk-Hierarchie mit zwei hintereinander geschalteten Transformer-Encodern. Der erste Encoder nutzt kurzfristige zeitliche Hinweise zur Schätzung der Handpose, während der zweite über einen längeren Zeitraum hinweg pro-frame-Handpose- und Objektinformationen aggregiert, um die Aktion zu erkennen. Unser Ansatz erzielt wettbewerbsfähige Ergebnisse auf zwei Benchmarks für erste-Perspektive-Handaktionen, nämlich FPHA und H2O. Umfangreiche Ablationsstudien bestätigen die Richtigkeit unserer Designentscheidungen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp