Zur metrischen Rekonstruktion menschlicher Gesichter

Die Rekonstruktion und Verfolgung von Gesichtern stellt eine zentrale Komponente zahlreicher Anwendungen in den Bereichen AR/VR, Mensch-Maschine-Interaktion sowie medizinische Anwendungen dar. Viele dieser Anwendungen basieren auf einer metrisch korrekten Vorhersage der Gesichtsform, insbesondere dann, wenn das rekonstruierte Objekt in einen metrischen Kontext eingebettet wird (z. B. bei Vorhandensein eines Referenzobjekts mit bekannter Größe). Auch für Anwendungen, die Abstände und Abmessungen des Gesichts messen (z. B. zur virtuellen Anpassung einer Brille), ist eine metrische Rekonstruktion erforderlich. Aktuelle Methoden zur Gesichtsrekonstruktion aus einer einzigen Bildaufnahme werden auf großen 2D-Bild-Datensätzen in einer selbstüberwachten Weise trainiert. Aufgrund der Natur der perspektivischen Projektion sind sie jedoch nicht in der Lage, die tatsächlichen Gesichtsabmessungen zu rekonstruieren; selbst die Vorhersage des durchschnittlichen menschlichen Gesichts übertrifft in metrischer Hinsicht einige dieser Methoden. Um die tatsächliche Gesichtsform zu lernen, befürworten wir einen überwachten Trainingsansatz. Da kein großskaliger 3D-Datensatz für diese Aufgabe existiert, haben wir kleinere und mittelgroße Datensätze annotiert und vereinheitlicht. Der resultierende vereinheitlichte Datensatz bleibt dennoch ein mittelgroßer Datensatz mit über 2.000 Identitäten, und eine reine Ausbildung darauf würde zu Überanpassung führen. Daher nutzen wir eine Gesichtserkennungsnetzwerkarchitektur, die auf einem großen 2D-Bild-Datensatz vortrainiert wurde und für verschiedene Gesichter charakteristische Merkmale liefert, die robust gegenüber Veränderungen der Mimik, Beleuchtung und Kameraeinstellungen sind. Mit diesen Merkmalen trainieren wir unseren Gesichtsform-Schätzer überwacht und übernehmen so die Robustheit und Generalisierbarkeit des Gesichtserkennungsnetzwerks. Unser Verfahren, das wir MICA (MetrIC fAce) nennen, übertrifft die derzeitigen State-of-the-Art-Methoden deutlich, sowohl auf aktuellen nicht-metrischen Benchmarks als auch auf unseren metrischen Benchmarks (15 % und 24 % geringere durchschnittliche Fehlerquote auf NoW, jeweils).