HyperAIHyperAI

Command Palette

Search for a command to run...

AiOS: All-in-One-Stage Expressive Human Pose und Shape Schätzung

Zusammenfassung

Die Schätzung ausdrucksstarker menschlicher Pose und Form (auch bekannt als 3D-Vollkörpergitter-Wiederherstellung) umfasst die Schätzung des menschlichen Körpers, der Hände und der Mimik. Die meisten existierenden Methoden haben diese Aufgabe in einem zweistufigen Verfahren angegangen: Zunächst wird mit einem vorgefertigten Detektionsmodell der menschliche Körperbereich erkannt, danach werden die verschiedenen Körperteile einzeln inferiert. Trotz der beeindruckenden Ergebnisse, die damit erreicht wurden, leiden diese Methoden unter 1) dem Verlust wertvoller kontextueller Informationen durch das Ausschneiden von Bildabschnitten, 2) der Einführung von Ablenkungen und 3) dem Fehlen von Inter-Assoziationen zwischen verschiedenen Personen und Körperteilen, was unvermeidlich zu einer Leistungsverschlechterung führt, insbesondere in dichten Szenen. Um diese Probleme zu lösen, stellen wir ein neuartiges Framework vor, das den gesamten Prozess in einer Phase abwickelt: AiOS (All-in-One-Stage). Dieses Framework ermöglicht die Wiederherstellung ausdrucksstarker menschlicher Pose und Form für mehrere Personen ohne zusätzlichen Schritt zur Erkennung des Menschen.Unsere Methode basiert speziell auf DETR, das die Aufgabe der Wiederherstellung des multi-personellen Vollkörpergitters als ein fortschreitendes Mengenvorhersageproblem mit verschiedenen sequentiellen Detektionen behandelt. Wir entwickeln Dekodiertoken und erweitern sie für unsere Aufgabe. Insbesondere verwenden wir zunächst einen Human-Token, um eine Person im Bild zu lokalisieren und globale Merkmale für jedes Individuum zu kodieren. Dies liefert eine grobe Positionierung für den späteren Transformer-Block. Anschließend führen wir einen Gelenk-bezogenen Token ein, um die menschlichen Gelenke im Bild zu erkunden und feingranulare lokale Merkmale zu kodieren. Diese arbeiten zusammen mit den globalen Merkmalen zur Regression des gesamten Körpergitters. Dieses einfache aber effektive Modell übertrifft die bisher besten Methoden um 9 % in Bezug auf NMVE (Normalized Mean Vertex Error) auf AGORA, um 30 % in Bezug auf PVE (Position Vertex Error) auf EHF (EgoHands Fullbody), um 10 % in Bezug auf PVE auf ARCTIC und um 3 % in Bezug auf PVE auf EgoBody.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp