HyperAIHyperAI
vor 13 Tagen

Raum-Zeit-trennbare Graphen-Convolutional Network für die Pose-Vorhersage

Theodoros Sofianos, Alessio Sampieri, Luca Franco, Fabio Galasso
Raum-Zeit-trennbare Graphen-Convolutional Network für die Pose-Vorhersage
Abstract

Die Vorhersage menschlicher Körperhaltung ist eine komplexe Aufgabe im Bereich der Modellierung strukturierter Sequenzdaten, die aufgrund zahlreicher potenzieller Anwendungen zunehmend Aufmerksamkeit erfährt. Die Forschung hat sich bisher hauptsächlich auf die zeitliche Dimension als Zeitreihe und die Wechselwirkung zwischen Körpergelenken mittels kinematischer Bäume oder Graphen konzentriert. Dies hat die beiden Aspekte entkoppelt und den Fortschritt aus den jeweiligen Fachgebieten genutzt, gleichzeitig aber auch die tiefe Erfassung der komplexen räumlich-zeitlichen Dynamik der menschlichen Körperhaltung eingeschränkt. In diesem Beitrag stellen wir ein neuartiges, räumlich-zeitlich separierbares Graphen-Convolutional Network (STS-GCN) für die Haltungsprognose vor. Zum ersten Mal modelliert STS-GCN die Dynamik menschlicher Körperhaltung ausschließlich mittels eines Graphen-Convolutional Networks (GCN), wobei sowohl die zeitliche Entwicklung als auch die räumliche Interaktion zwischen Gelenken innerhalb eines einheitlichen Graphen-Rahmens integriert werden. Dadurch ermöglicht es eine wechselseitige Beeinflussung zwischen Bewegungs- und räumlichen Korrelationen. Gleichzeitig ist STS-GCN das erste räumlich-zeitlich separierbare GCN: Die räumlich-zeitliche Graphenverbindung wird in eine räumliche und eine zeitliche Affinitätsmatrix faktorisiert, was die räumlich-zeitliche Wechselwirkung begrenzt, jedoch vollständige Gelenk-Gelenk- und Zeit-Zeit-Korrelationen ermöglicht. Beide Affinitätsmatrizen werden end-to-end gelernt, was zu Verbindungen führt, die sich erheblich von dem herkömmlichen kinematischen Baum und der linearen Zeitreihe unterscheiden. In der experimentellen Bewertung an drei anspruchsvollen, aktuellen und großskaligen Benchmarks – Human3.6M [Ionescu et al. TPAMI'14], AMASS [Mahmood et al. ICCV'19] und 3DPW [Von Marcard et al. ECCV'18] – übertrifft STS-GCN die derzeit beste Methode [Mao et al. ECCV'20] um durchschnittlich über 32 % bei den anspruchsvollsten Langzeitprognosen, wobei lediglich 1,7 % der Parameter des Vergleichsverfahrens benötigt werden. Wir erklären die Ergebnisse qualitativ und veranschaulichen die Grapheninteraktionen durch die faktorisierten, gelernten Gelenk-Gelenk- und Zeit-Zeit-Verbindungen. Unser Quellcode ist verfügbar unter: https://github.com/FraLuca/STSGCN

Raum-Zeit-trennbare Graphen-Convolutional Network für die Pose-Vorhersage | Neueste Forschungsarbeiten | HyperAI