Direkte Mehransichts-Mehrpersonen-3D-Pose-Schätzung

Wir stellen den Multi-view Pose Transformer (MvP) vor, ein Verfahren zur Schätzung von 3D-Posen mehrerer Personen aus mehreren Ansichten von Bildern. Im Gegensatz zu früheren Methoden, die entweder kostspielige volumetrische Repräsentationen zur Schätzung 3D-Gelenkpositionen verwenden oder die 3D-Pose pro Person aus mehreren detektierten 2D-Posen rekonstruieren, schätzt MvP die 3D-Posen mehrerer Personen direkt, sauber und effizient – ohne auf Zwischenaufgaben angewiesen zu sein. Konkret repräsentiert MvP die Skelettgelenke als lernbare Query-Embeddings und ermöglicht es diesen, sich schrittweise über die mehransichtigen Informationen aus den Eingabebildern hinweg zu fokussieren und zu inferieren, um direkt die tatsächlichen 3D-Gelenkpositionen zu regressive. Um die Genauigkeit dieser einfachen Pipeline zu verbessern, führt MvP ein hierarchisches Schema zur kompakten Darstellung der Query-Embeddings von mehrpersonigen Skeletten ein und stellt einen eingabebasierten Query-Anpassungsansatz vor. Zudem entwirft MvP eine neuartige geometrisch geleitete Aufmerksamkeitsmechanik, die sogenannte „projective attention“, um die Kreuzansichtsinformationen für jedes Gelenk präziser zu fusionieren. Außerdem führt MvP eine RayConv-Operation ein, um die ansichtsabhängige Kammergeometrie in die Merkmalsrepräsentationen zu integrieren und die projective attention zu verstärken. Experimentell zeigen wir, dass unser MvP-Modell auf mehreren Benchmarks die bisherigen State-of-the-Art-Methoden übertrifft, während es gleichzeitig deutlich effizienter ist. Insbesondere erreicht MvP eine AP25 von 92,3 % auf dem anspruchsvollen Panoptic-Datensatz, was eine Verbesserung um 9,8 % gegenüber der bisher besten Methode [36] darstellt. MvP ist allgemein gültig und lässt sich zudem leicht auf die Rekonstruktion von menschlichen Meshes im SMPL-Modell erweitern, was es nützlich für die Modellierung mehrerer Körperformen macht. Der Quellcode und die Modelle sind unter https://github.com/sail-sg/mvp verfügbar.