LUVLi Gesichtsausrichtung: Schätzung der Landmarkenposition, Unsicherheit und Sichtbarkeitswahrscheinlichkeit

Moderne Methoden zur Gesichtsausrichtung sind heute bereits sehr genau darin, die Positionen von Gesichtslandmarken vorherzusagen, jedoch schätzen sie typischerweise weder die Unsicherheit ihrer Vorhersagen noch die Sichtbarkeit der jeweiligen Landmarken. In diesem Artikel präsentieren wir einen neuartigen Rahmen, der gemeinsam Landmarkenpositionen, die damit verbundene Unsicherheit dieser Positionen sowie die Sichtbarkeit der Landmarken vorhersagt. Wir modellieren diese als gemischte Zufallsvariablen und schätzen sie mittels eines tiefen neuronalen Netzes, das mit unserer neu vorgeschlagenen Loss-Funktion „Location, Uncertainty, and Visibility Likelihood (LUVLi)“ trainiert wurde. Zusätzlich veröffentlichen wir eine vollständig neue Annotation eines großen Datensatzes für Gesichtsausrichtung mit über 19.000 Gesichtsbildern in einer breiten Palette von Kopfpositionen. Jedes Gesicht wurde manuell mit den Ground-Truth-Positionen von 68 Landmarken beschriftet, wobei zusätzlich erfasst wurde, ob jede Landmarke unverdeckt, selbstverdeckt (aufgrund extremer Kopfneigungen) oder extern verdeckt ist. Unser gemeinsamer Schätzungansatz liefert nicht nur präzise Schätzungen der Unsicherheit der vorhergesagten Landmarkenpositionen, sondern erzielt zudem state-of-the-art Ergebnisse für die Landmarkenpositionen selbst auf mehreren etablierten Datensätzen zur Gesichtsausrichtung. Die von unserer Methode ermittelten Unsicherheitsabschätzungen der vorhergesagten Landmarkenpositionen könnten zur automatischen Erkennung von Eingabebildern verwendet werden, bei denen die Gesichtsausrichtung fehlschlägt, was für nachgeschaltete Aufgaben von entscheidender Bedeutung sein kann.