HyperAIHyperAI
vor 2 Monaten

Strukturbewusste Generierung menschlicher Aktionen

Yu, Ping ; Zhao, Yang ; Li, Chunyuan ; Yuan, Junsong ; Chen, Changyou
Strukturbewusste Generierung menschlicher Aktionen
Abstract

Die Generierung von langreichweitigen, skelettbasierten menschlichen Bewegungen ist seit jeher eine herausfordernde Aufgabe, da kleine Abweichungen in einem Frame zu einer fehlerhaften Aktionenfolge führen können. Die meisten existierenden Methoden entlehnen Ideen aus der Videogenerierung und behandeln die Skelett-Knoten/Gelenke naiv als Pixel von Bildern, ohne die reiche Inter-Frame- und Intra-Frame-Strukturinformation zu berücksichtigen. Dies kann zu potenziell verzerrten Aktionen führen. Graph Convolutional Networks (GCNs) bieten ein vielversprechendes Ansatz, um Strukturinformationen zu nutzen, um Strukturrepräsentationen zu lernen. Allerdings stellt die direkte Anwendung von GCNs zur Bearbeitung kontinuierlicher Aktionssequenzen sowohl im räumlichen als auch im zeitlichen Raum eine Herausforderung dar, da der Aktiongraph sehr groß sein könnte. Um dieses Problem zu überwinden, schlagen wir eine Variante von GCNs vor, die den leistungsfähigen Selbst-Aufmerksamkeitsmechanismus nutzt, um einen vollständigen Aktiongraph im zeitlichen Raum anpassungsweise zu verdünnen. Unsere Methode kann dynamisch wichtige vergangene Frames beachten und einen dünnen Graph konstruieren, der in das GCN-Framework integriert werden kann. Dies ermöglicht es, die Strukturinformationen in Aktionssequenzen gut zu erfassen. Ausführliche experimentelle Ergebnisse zeigen die Überlegenheit unserer Methode auf zwei Standard-Datensätzen für menschliche Aktionen im Vergleich zu bestehenden Methoden.