HyperAIHyperAI
vor 2 Monaten

XNect: Echtzeit-Multi-Personen-3D-Bewegungserfassung mit einer einzelnen RGB-Kamera

Dushyant Mehta; Oleksandr Sotnychenko; Franziska Mueller; Weipeng Xu; Mohamed Elgharib; Pascal Fua; Hans-Peter Seidel; Helge Rhodin; Gerard Pons-Moll; Christian Theobalt
XNect: Echtzeit-Multi-Personen-3D-Bewegungserfassung mit einer einzelnen RGB-Kamera
Abstract

Wir präsentieren einen Echtzeitansatz zur Mehrpersonen-3D-Bewegungserfassung mit über 30 fps unter Verwendung einer einzelnen RGB-Kamera. Dieser Ansatz funktioniert erfolgreich in generischen Szenen, die möglicherweise Objekt- und Personverdeckungen enthalten. Unser Verfahren gliedert sich in aufeinanderfolgende Stufen. In der ersten Stufe wird ein Faltungsneuronales Netz (CNN) verwendet, das 2D- und 3D-Posemerkmale sowie Identitätszuordnungen für alle sichtbaren Gelenke aller Individuen schätzt. Wir tragen eine neue Architektur für dieses CNN bei, die SelecSLS Net genannt wird und neuartige selektive Lang- und Kurzstreckenskip-Verbindungen verwendet, um den Informationsfluss zu verbessern und so eine erheblich schnellere Netzarchitektur ohne Genauigkeitsverlust zu ermöglichen. In der zweiten Stufe transformiert ein vollständig vernetztes Neuronales Netz die teilweise (aufgrund von Verdeckungen) vorhandenen 2D-Pose- und 3D-Pose-Merkmale für jedes Subjekt in eine vollständige 3D-Pose-Schätzung pro Individuum. Die dritte Stufe wendet ein Raum-Zeit-Skelettmодель an, um die vorhergesagten 2D- und 3D-Posen für jedes Subjekt weiter zu vereinbaren und die zeitliche Kohärenz sicherzustellen. Unsere Methode liefert die vollständige Skelett-Pose in Gelenkwinkeln für jedes Subjekt. Dies ist eine weitere wesentliche Unterscheidung zu früheren Arbeiten, die keine kohärenten Skelett-Gelenkwinkel-Ergebnisse in Echtzeit für Mehrpersonenszenen liefern. Das vorgeschlagene System erreicht bei der Verarbeitung von Eingabebildern im Format 512x320 eine bislang nicht erreichte Geschwindigkeit von mehr als 30 fps auf Konsumhardware, wobei es den aktuellen Stand der Technik hinsichtlich der Genauigkeit erreicht, was wir anhand einer Reihe herausfordernder reeller Szenen demonstrieren werden.请注意,原文中的“skelettmодель”似乎是拼写错误,应该是“Skelettmодell”。在德语中正确的拼写为“Skelettmuster”或“Skelettmödel”,但根据上下文,这里应该是指“Skelettmодell”(骨骼模型)。因此,我在翻译中保留了正确的术语“Skelettmодell”。

XNect: Echtzeit-Multi-Personen-3D-Bewegungserfassung mit einer einzelnen RGB-Kamera | Neueste Forschungsarbeiten | HyperAI