Zur 3D-Gesichtsrekonstruktion in perspektivischer Projektion: Schätzung der 6DoF-Gesichtspose aus monokularer Bildaufnahme

Bei der 3D-Gesichtsrekonstruktion wird orthogonal projizierende Abbildung weit verbreitet eingesetzt, um die perspektivische Projektion zu ersetzen und den Anpassungsprozess zu vereinfachen. Diese Näherung funktioniert gut, wenn der Abstand zwischen Kamera und Gesicht groß genug ist. In Szenarien, in denen das Gesicht jedoch sehr nahe an der Kamera liegt oder sich entlang der Kamerachsen bewegt, leiden die Methoden jedoch unter ungenauer Rekonstruktion und instabiler zeitlicher Anpassung aufgrund der Verzerrungen, die durch die perspektivische Projektion verursacht werden. In diesem Paper zielen wir darauf ab, das Problem der Einzelbild-3D-Gesichtsrekonstruktion unter perspektivischer Projektion zu lösen. Genauer wird ein tiefes neuronales Netzwerk, das sogenannte Perspective Network (PerspNet), vorgestellt, das gleichzeitig die 3D-Gesichtsform im kanonischen Raum rekonstruiert und die Korrespondenz zwischen 2D-Pixeln und 3D-Punkten lernt. Dadurch kann die 6-DoF-(6 Degrees of Freedom)-Gesichtspose geschätzt werden, um die perspektivische Projektion angemessen zu repräsentieren. Zusätzlich tragen wir eine große ARKitFace-Datenbank bei, die die Trainings- und Evaluierungsmöglichkeit für 3D-Gesichtsrekonstruktionsmethoden unter perspektivischen Projektionsbedingungen ermöglicht. Diese enthält 902.724 2D-Gesichtsbilder mit Ground-Truth-3D-Gesichtsnetzen sowie annotierte 6-DoF-Poseparameter. Experimentelle Ergebnisse zeigen, dass unser Ansatz gegenwärtige State-of-the-Art-Methoden deutlich übertrifft. Der Quellcode und die Daten sind unter https://github.com/cbsropenproject/6dof_face verfügbar.