HyperAIHyperAI
vor 7 Tagen

XFormer: Schnelle und genaue monokulare 3D-Körper-Erfassung

Lihui Qian, Xintong Han, Faqiang Wang, Hongyu Liu, Haoye Dong, Zhiwen Li, Huawei Wei, Zhe Lin, Cheng-Bin Jin
XFormer: Schnelle und genaue monokulare 3D-Körper-Erfassung
Abstract

Wir präsentieren XFormer, eine neuartige Methode zur menschlichen Mesh- und Bewegungserfassung, die auf herkömmlichen CPUs in Echtzeit arbeitet, wenn ausschließlich monochrome Bilder als Eingabe dienen. Die vorgeschlagene Netzarchitektur besteht aus zwei Zweigen: einem Keypoint-Zweig, der 3D-Mesh-Ecken auf Basis von 2D-Keypoints schätzt, und einem Bild-Zweig, der Vorhersagen direkt aus den RGB-Bildmerkmalen ableitet. Im Kern unserer Methode steht ein cross-modal Transformer-Block, der den Informationsfluss zwischen diesen beiden Zweigen ermöglicht, indem er die Aufmerksamkeit zwischen den 2D-Keypoint-Koordinaten und den räumlichen Merkmalen des Bildes modelliert. Durch eine geschickte Architekturgestaltung können wir auf verschiedenen Datensätzen trainieren, einschließlich Bilder mit 2D/3D-Annotationen, Bilder mit 3D-Pseudolabels sowie Bewegungserfassungs-Datensätze, die keine zugehörigen Bilder besitzen. Dadurch wird die Genauigkeit und Verallgemeinerungsfähigkeit unseres Systems signifikant verbessert. Aufbauend auf einem leichten Backbone (MobileNetV3) läuft unsere Methode äußerst schnell (über 30 FPS auf einem einzigen CPU-Kern) und erreicht dennoch konkurrenzfähige Genauigkeit. Zudem erzielt XFormer mit einem HRNet-Backbone Zustand-des-Kunst-Leistungen auf den Datensätzen Human3.6 und 3DPW.

XFormer: Schnelle und genaue monokulare 3D-Körper-Erfassung | Neueste Forschungsarbeiten | HyperAI