3D Whole-Body Pose Estimation basierend auf einem Semantischen Graphen-Attention-Netzwerk und Distanzinformation

In den letzten Jahren wurden zahlreiche unterschiedliche Methoden für die 3D-Gestenerkennung vorgeschlagen. Unter diesen haben sowohl Selbst-Attention-Mechanismen als auch Graph-Convolutionen sich als wirksam und praktikabel erwiesen. Ausgehend von den Stärken beider Ansätze haben wir ein neuartiges Semantisches Graph-Attention-Netzwerk entwickelt, das die Fähigkeit der Selbst-Attention zur Erfassung globaler Kontextinformationen nutzt, gleichzeitig aber auch die Graph-Convolutionen zur Behandlung lokaler Verbindlichkeiten und struktureller Einschränkungen des Skeletts einsetzt. Zudem haben wir einen Körperabschnitts-Decoder entworfen, der dabei unterstützt, informationsrelevante Merkmale spezifischer Körperteile zu extrahieren und zu verfeinern. Darüber hinaus integrieren wir Distanzinformationen, um die Fähigkeit unseres Modells zur Erfassung und präzisen Vorhersage räumlicher Beziehungen zu verbessern. Schließlich führen wir eine Geometrie-Verlustfunktion ein, die eine entscheidende strukturelle Einschränkung für das menschliche Skelett vorgibt und sicherstellt, dass die Vorhersagen des Modells innerhalb der natürlichen Grenzen menschlicher Körperhaltung bleiben. Die experimentellen Ergebnisse bestätigen die Wirksamkeit unseres Ansatzes und zeigen, dass jedes Element des Systems für die Verbesserung der Gestenerkennung unerlässlich ist. Im Vergleich zu aktuellen State-of-the-Art-Methoden erreicht unser Ansatz nicht nur die bestehenden Benchmarks, sondern übertrifft sie sogar.