HyperAIHyperAI
vor 2 Monaten

AiOS: All-in-One-Stage Expressive Human Pose und Shape Schätzung

Sun, Qingping ; Wang, Yanjun ; Zeng, Ailing ; Yin, Wanqi ; Wei, Chen ; Wang, Wenjia ; Mei, Haiyi ; Leung, Chi Sing ; Liu, Ziwei ; Yang, Lei ; Cai, Zhongang
AiOS: All-in-One-Stage Expressive Human Pose und Shape Schätzung
Abstract

Die Schätzung ausdrucksstarker menschlicher Pose und Form (auch bekannt als 3D-Vollkörpergitter-Wiederherstellung) umfasst die Schätzung des menschlichen Körpers, der Hände und der Mimik. Die meisten existierenden Methoden haben diese Aufgabe in einem zweistufigen Verfahren angegangen: Zunächst wird mit einem vorgefertigten Detektionsmodell der menschliche Körperbereich erkannt, danach werden die verschiedenen Körperteile einzeln inferiert. Trotz der beeindruckenden Ergebnisse, die damit erreicht wurden, leiden diese Methoden unter 1) dem Verlust wertvoller kontextueller Informationen durch das Ausschneiden von Bildabschnitten, 2) der Einführung von Ablenkungen und 3) dem Fehlen von Inter-Assoziationen zwischen verschiedenen Personen und Körperteilen, was unvermeidlich zu einer Leistungsverschlechterung führt, insbesondere in dichten Szenen. Um diese Probleme zu lösen, stellen wir ein neuartiges Framework vor, das den gesamten Prozess in einer Phase abwickelt: AiOS (All-in-One-Stage). Dieses Framework ermöglicht die Wiederherstellung ausdrucksstarker menschlicher Pose und Form für mehrere Personen ohne zusätzlichen Schritt zur Erkennung des Menschen.Unsere Methode basiert speziell auf DETR, das die Aufgabe der Wiederherstellung des multi-personellen Vollkörpergitters als ein fortschreitendes Mengenvorhersageproblem mit verschiedenen sequentiellen Detektionen behandelt. Wir entwickeln Dekodiertoken und erweitern sie für unsere Aufgabe. Insbesondere verwenden wir zunächst einen Human-Token, um eine Person im Bild zu lokalisieren und globale Merkmale für jedes Individuum zu kodieren. Dies liefert eine grobe Positionierung für den späteren Transformer-Block. Anschließend führen wir einen Gelenk-bezogenen Token ein, um die menschlichen Gelenke im Bild zu erkunden und feingranulare lokale Merkmale zu kodieren. Diese arbeiten zusammen mit den globalen Merkmalen zur Regression des gesamten Körpergitters. Dieses einfache aber effektive Modell übertrifft die bisher besten Methoden um 9 % in Bezug auf NMVE (Normalized Mean Vertex Error) auf AGORA, um 30 % in Bezug auf PVE (Position Vertex Error) auf EHF (EgoHands Fullbody), um 10 % in Bezug auf PVE auf ARCTIC und um 3 % in Bezug auf PVE auf EgoBody.