HyperAIHyperAI
vor 17 Tagen

CrossFormer: Cross Spatio-Temporal Transformer für die 3D-Gestenerkennung

Mohammed Hassanin, Abdelwahed Khamiss, Mohammed Bennamoun, Farid Boussaid, Ibrahim Radwan
CrossFormer: Cross Spatio-Temporal Transformer für die 3D-Gestenerkennung
Abstract

Die 3D-Schätzung menschlicher Körperhaltung kann durch die Kodierung geometrischer Abhängigkeiten zwischen Körpersegmenten und die Einhaltung kinematischer Einschränkungen bewältigt werden. In jüngster Zeit wurde der Transformer zur Kodierung von Langstrecken-Abhängigkeiten zwischen Gelenken im räumlichen und zeitlichen Bereich eingesetzt. Obwohl sich diese Ansätze hinsichtlich Langstrecken-Abhängigkeiten als überlegen erwiesen haben, weisen zahlreiche Studien darauf hin, dass die Lokalität von Vision-Transformern verbessert werden muss. In dieser Richtung stellen wir einen neuartigen Pose-Estimation-Transformer vor, der über reichhaltige Darstellungen der Körpergelenke verfügt, die entscheidend für die Erfassung subtiler Veränderungen über Frames hinweg (d. h. inter-features-Abhängigkeiten) sind. Insbesondere kodiert das Modell durch zwei neuartige Interaktionsmodule – das Cross-Joint-Interaction- und das Cross-Frame-Interaction-Modul – explizit lokale und globale Abhängigkeiten zwischen den Gelenken. Die vorgeschlagene Architektur erreicht Spitzenleistung auf zwei etablierten Datensätzen für 3D-Menschenhaltungsschätzung, Human3.6 und MPI-INF-3DHP. Insbesondere verbessert unsere Methode, CrossFormer, die Leistung gegenüber dem nächsten Konkurrenten, PoseFormer, um 0,9 % bei Verwendung detektierter 2D-Posen und um 0,3 % im Szenario mit Ground-Truth-Daten.