FOF: Lernen des Fourier-Besetztheitsfelds für die monokulare Echtzeit-Rekonstruktion von Menschen

Die Einführung des tiefen Lernens hat zu erheblichen Fortschritten bei der monokularen Rekonstruktion von Menschen geführt. Bestehende Darstellungsformen wie parametrische Modelle, Voxelgitter, Netze und implizite neuronale Darstellungen haben jedoch Schwierigkeiten, gleichzeitig hochwertige Ergebnisse und Echtzeitgeschwindigkeit zu erreichen. In dieser Arbeit schlagen wir das Fourier Occupancy Field (FOF) vor, eine neuartige, leistungsfähige und flexible 3D-Darstellung für die monokulare Echtzeit- und präzise Rekonstruktion von Menschen. Das FOF repräsentiert ein 3D-Objekt durch ein 2D-Feld, das senkrecht zur Betrachtungsrichtung liegt, wobei an jeder 2D-Position das Occupancy Field des Objekts entlang der Betrachtungsrichtung mit den ersten wenigen Gliedern einer Fourierreihe kompakt dargestellt wird. Dies behält die Topologie und die Nachbarschaftsbeziehungen im 2D-Bereich bei. Ein FOF kann als mehrkanaliges Bild gespeichert werden, was mit 2D-Faltungsneuronalen Netzen vereinbar ist und die Lücke zwischen 3D-Geometrien und 2D-Bildern schließt. Das FOF ist sehr flexibel und erweiterbar; zum Beispiel können parametrische Modelle leicht als Prior in ein FOF integriert werden, um robusteres Ergebnisse zu generieren. Auf Basis des FOF entwickeln wir den ersten Hochgenauigkeitsrahmen für die monokulare Echtzeitrekonstruktion von Menschen mit über 30 FPS. Wir zeigen das Potenzial des FOF sowohl an öffentlichen Datensätzen als auch an realen erfassten Daten. Der Code wird für Forschungszwecke veröffentlicht.