Command Palette
Search for a command to run...
Gemeinsame Voxel- und Koordinatenregression für eine präzise 3D-Gesichtslandmarkenlokalisierung
Gemeinsame Voxel- und Koordinatenregression für eine präzise 3D-Gesichtslandmarkenlokalisierung
Zhang Hongwen Li Qi Sun Zhenan
Zusammenfassung
Die 3D-Gesichtsform ist ausdrucksvoller und perspektiveneinheitlicher als ihre 2D-Entsprechung. Die Lokalisierung von 3D-Gesichtslandmarken in einer einzigen Bildaufnahme ist jedoch aufgrund der mehrdeutigen Natur der Landmarken unter 3D-Perspektive herausfordernd. Bestehende Ansätze verfolgen typischerweise eine suboptimale Zwei-Schritt-Strategie, bei der zunächst 2D-Landmarken lokalisiert und anschließend die Tiefeninformation geschätzt wird. In diesem Artikel stellen wir die Joint Voxel and Coordinate Regression (JVCR)-Methode zur Lokalisierung von 3D-Gesichtslandmarken vor, die das Problem effizienter und end-to-end löst. Zunächst wird eine kompakte volumetrische Darstellung vorgeschlagen, die die Wahrscheinlichkeit für jedes Voxel, eine 3D-Landmarkenposition zu repräsentieren, kodiert. Die Dimensionalität dieser Darstellung bleibt unabhängig von der Anzahl der Ziel-Landmarken konstant, wodurch die „Fluch der Dimensionen“ vermieden wird. Anschließend wird ein gestapelter Hourglass-Netzwerk eingesetzt, um die volumetrische Darstellung von grob nach fein zu schätzen, gefolgt von einem 3D-Konvolutionssystem, das die geschätzte Volumenstruktur als Eingabe erhält und die 3D-Koordinaten der Gesichtsform regressiert. Auf diese Weise können die 3D-Strukturbeziehungen zwischen den Landmarken durch das neuronale Netzwerk effizienter erlernt werden. Darüber hinaus ermöglicht der vorgeschlagene Ansatz eine end-to-end-Trainingsstrategie und verbessert die Robustheit sowie Genauigkeit der Lokalisierung von 3D-Gesichtslandmarken. Die Wirksamkeit unseres Ansatzes wird anhand der Datensätze 3DFAW und AFLW2000-3D validiert. Experimentelle Ergebnisse zeigen, dass die vorgeschlagene Methode im Vergleich zu bestehenden Verfahren eine state-of-the-art-Leistung erzielt.