HyperAIHyperAI

Command Palette

Search for a command to run...

Direkte Mehransichts-Mehrpersonen-3D-Pose-Schätzung

Tao Wang Jianfeng Zhang Yujun Cai Shuicheng Yan Jiashi Feng

Zusammenfassung

Wir stellen den Multi-view Pose Transformer (MvP) vor, ein Verfahren zur Schätzung von 3D-Posen mehrerer Personen aus mehreren Ansichten von Bildern. Im Gegensatz zu früheren Methoden, die entweder kostspielige volumetrische Repräsentationen zur Schätzung 3D-Gelenkpositionen verwenden oder die 3D-Pose pro Person aus mehreren detektierten 2D-Posen rekonstruieren, schätzt MvP die 3D-Posen mehrerer Personen direkt, sauber und effizient – ohne auf Zwischenaufgaben angewiesen zu sein. Konkret repräsentiert MvP die Skelettgelenke als lernbare Query-Embeddings und ermöglicht es diesen, sich schrittweise über die mehransichtigen Informationen aus den Eingabebildern hinweg zu fokussieren und zu inferieren, um direkt die tatsächlichen 3D-Gelenkpositionen zu regressive. Um die Genauigkeit dieser einfachen Pipeline zu verbessern, führt MvP ein hierarchisches Schema zur kompakten Darstellung der Query-Embeddings von mehrpersonigen Skeletten ein und stellt einen eingabebasierten Query-Anpassungsansatz vor. Zudem entwirft MvP eine neuartige geometrisch geleitete Aufmerksamkeitsmechanik, die sogenannte „projective attention“, um die Kreuzansichtsinformationen für jedes Gelenk präziser zu fusionieren. Außerdem führt MvP eine RayConv-Operation ein, um die ansichtsabhängige Kammergeometrie in die Merkmalsrepräsentationen zu integrieren und die projective attention zu verstärken. Experimentell zeigen wir, dass unser MvP-Modell auf mehreren Benchmarks die bisherigen State-of-the-Art-Methoden übertrifft, während es gleichzeitig deutlich effizienter ist. Insbesondere erreicht MvP eine AP25 von 92,3 % auf dem anspruchsvollen Panoptic-Datensatz, was eine Verbesserung um 9,8 % gegenüber der bisher besten Methode [36] darstellt. MvP ist allgemein gültig und lässt sich zudem leicht auf die Rekonstruktion von menschlichen Meshes im SMPL-Modell erweitern, was es nützlich für die Modellierung mehrerer Körperformen macht. Der Quellcode und die Modelle sind unter https://github.com/sail-sg/mvp verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp