Multi-HMR: Mehrpersonige Ganzkörper-Menschliches-Netz-Wiederherstellung in einem Schritt

Wir stellen Multi-HMR vor, ein leistungsstarkes Einsschussmodell zur 3D-Menschennetz-Rekonstruktion mehrerer Personen aus einem einzelnen RGB-Bild. Die Vorhersagen umfassen den gesamten Körper, d.h. einschließlich Hände und Gesichtsausdrücke, unter Verwendung des parametrischen Modells SMPL-X und der 3D-Position im Kamerakoordinatensystem. Unser Modell erkennt Personen durch die Vorhersage grober 2D-Wärmekarten der Personensitze, wobei es auf Merkmale zurückgreift, die von einem standardisierten Vision Transformer (ViT)-Backbone erzeugt werden. Es prognostiziert dann ihre gesamtkörperliche Haltung, Form und 3D-Position mithilfe eines neuen Cross-Attention-Moduls namens Human Prediction Head (HPH), bei dem eine Anfrage sich auf das gesamte Merkmalsset für jede erkannte Person konzentriert. Da die direkte Vorhersage feingranularer Hand- und Gesichtshaltungen im Einsschussmodus, d.h. ohne explizite Zuschneidungen um Körperteile, aus vorhandenen Daten schwer zu lernen ist, führen wir CUFFS ein, einen Datensatz mit Nahaufnahmen vollständiger Subjekte (Close-Up Frames of Full-Body Subjects), der Menschen nahe an der Kamera mit vielfältigen Handhaltungen enthält. Wir zeigen, dass die Integration dieses Datensatzes in die Trainingsdaten die Vorhersagen weiter verbessert, insbesondere für Hände. Multi-HMR berücksichtigt optional auch Kamerainternalparameter, falls diese verfügbar sind, indem es Kamerastrahlrichtungen für jedes Bildtoken kodiert. Diese einfache Architektur erreicht starke Leistungen sowohl bei Benchmarks für den gesamten Körper als auch bei Benchmarks nur für den Körper: Ein ViT-S-Backbone auf $448{\times}448$-Bildern liefert bereits ein schnelles und wettbewerbsfähiges Modell, während größere Modelle und höhere Auflösungen Stand der Technik darstellen.请注意,这里有一些术语的翻译:- "single-shot model" 被翻译为 "Einsschussmodell"- "3D human mesh recovery" 被翻译为 "3D-Menschennetz-Rekonstruktion"- "Vision Transformer (ViT)" 被翻译为 "Vision Transformer (ViT)"- "Human Prediction Head (HPH)" 被翻译为 "Human Prediction Head (HPH)"- "camera intrinsics" 被翻译为 "Kamerainternalparameter"这些术语在德语中可能有不同的变体或表达方式,但上述翻译是最常用的。希望这能帮助您!