Menschliche Pose als zusammengesetzte Tokens

Die menschliche Körperhaltung wird üblicherweise durch einen Koordinatenvektor der Gelenke oder deren Heatmap-Embeddings dargestellt. Obwohl diese Darstellung datenverarbeitungstechnisch einfach ist, werden unrealistische Haltungsabschätzungen zugelassen, da zwischen den Gelenken keine Abhängigkeitsmodellierung erfolgt. In diesem Paper präsentieren wir eine strukturierte Darstellung, die als Pose as Compositional Tokens (PCT) bezeichnet wird, um die Gelenkabhängigkeiten zu erforschen. Dabei wird eine Haltung durch M diskrete Tokens repräsentiert, wobei jedes Token eine Teilstruktur mit mehreren miteinander abhängigen Gelenken charakterisiert. Durch die kompositionelle Gestaltung erreicht die Methode eine geringe Rekonstruktionsfehlerquote bei geringem Rechenaufwand. Anschließend wird die Haltungsschätzung als Klassifikationsaufgabe formuliert. Genauer gesagt lernen wir einen Klassifikator, um die Kategorien der M Tokens aus einem Bild vorherzusagen. Ein vorab gelerntes Dekodernetzwerk wird verwendet, um die Haltung aus den Tokens ohne zusätzliche Nachbearbeitung wiederherzustellen. Wir zeigen, dass die Methode im Allgemeinen vergleichbare oder bessere Ergebnisse als bestehende Methoden erzielt, und dennoch gut funktioniert, wenn Verdeckung auftritt – ein Phänomen, das in der Praxis allgegenwärtig ist. Der Quellcode und die Modelle sind öffentlich unter https://github.com/Gengzigang/PCT verfügbar.