Graphgestapelte Stundengläser-Netzwerke für die 3D-Menschenpose-Schätzung

In diesem Paper stellen wir eine neuartige Architektur für Graph-Convolutional Networks, namens Graph Stacked Hourglass Networks, für Aufgaben der 2D-zu-3D-Menschenpose-Schätzung vor. Die vorgeschlagene Architektur basiert auf wiederholten Encoder-Decoder-Strukturen, in denen graphenbasierte Merkmale über drei unterschiedliche Skalen der menschlichen Skelettrepräsentation verarbeitet werden. Diese mehrskalige Architektur ermöglicht es dem Modell, sowohl lokale als auch globale Merkmalsdarstellungen zu erlernen, was für die 3D-Menschenpose-Schätzung von entscheidender Bedeutung ist. Zudem führen wir einen mehrstufigen Merkmalslernansatz ein, der unterschiedliche Tiefe von Zwischenmerkmalen nutzt, und zeigen die Leistungsverbesserungen, die sich aus der Ausnutzung mehrskaliger, mehrstufiger Merkmalsdarstellungen ergeben. Um unsere Methode zu validieren, werden umfangreiche Experimente durchgeführt, und die Ergebnisse zeigen, dass unser Modell die derzeitigen State-of-the-Art-Verfahren übertrifft.