HyperAIHyperAI

Command Palette

Search for a command to run...

Leichtgewichtige Multi-View-3D-Pose-Schätzung durch kameradisentangierte Darstellung

Edoardo Remelli Shangchen Han Sina Honari Pascal Fua Robert Wang

Zusammenfassung

Wir präsentieren eine leichte Lösung zur Rekonstruktion der 3D-Gesten aus mehreren Ansichten, die mit räumlich kalibrierten Kameras aufgenommen wurden. Aufbauend auf jüngsten Fortschritten im Bereich der interpretierbaren Darstellungslernverfahren nutzen wir die 3D-Geometrie, um die Eingabebilder zu einer einheitlichen latenten Darstellung der Gesten zu fusionieren, die von den Kameraperspektiven entkoppelt ist. Dadurch können wir effizient über die 3D-Gesten verschiedener Ansichten nachdenken, ohne rechenintensive volumetrische Gitter einzusetzen. Unser Architekturbedingungiert die gelernte Darstellung anhand von Kameraprojektionsoperatoren, um präzise 2D-Detektionen pro Ansicht zu erzeugen, die einfach durch eine differenzierbare Direct Linear Transform (DLT)-Schicht in 3D überführt werden können. Um dies effizient zu ermöglichen, schlagen wir eine neuartige Implementierung der DLT vor, die auf GPU-Architekturen um Größenordnungen schneller ist als herkömmliche, auf SVD basierende Triangulationsmethoden. Wir evaluieren unseren Ansatz an zwei großen menschlichen Gesten-Datensätzen (H36M und Total Capture): Unser Verfahren erreicht eine Leistung, die die beste bisherige volumetrische Methode übertrifft oder ihr gleichkommt, wobei es im Gegensatz zu diesen Echtzeit-Leistung erzielt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp