Nase, Augen und Ohren: Kopfhaltungsschätzung durch die Lokalisierung von Gesichtspunkten

Die Schätzung der Kopfhaltung mit einer Kamera erfordert das Lernen eines Modells, das die intrinsischen Eulerschen Winkel für die Haltung (Gier-, Nick- und Rollwinkel) aus einem Eingabebild eines menschlichen Gesichts berechnet. Das Annotieren von Referenzwinkeln der Kopfhaltung für Bilder im freien Feld ist schwierig und erfordert ad-hoc-Anpassungsverfahren (die nur grobe und annähernde Annotationen liefern). Dies unterstreicht die Notwendigkeit von Ansätzen, die auf Daten aus kontrollierten Umgebungen trainiert werden können und sich auf Bilder im freien Feld verallgemeinern lassen (mit variabler Erscheinung und Beleuchtung des Gesichts). Die meisten aktuellen tiefen Lernansätze, die eine Regressionsfunktion direkt auf den Eingangsbildern lernen, schlagen dabei fehl. Zu diesem Zweck schlagen wir vor, eine höhere Ebene der Darstellung zu verwenden, um die Kopfhaltung zu regressieren, während wir tiefen Lernarchitekturen einsetzen. Genauer gesagt verwenden wir Unsicherheitskarten in Form von 2D-Soft-Lokalisierungswärmebildern über fünf Gesichtspunkte, nämlich linkes Ohr, rechtes Ohr, linkes Auge, rechtes Auge und Nase, und leiten sie durch ein Faltungsneuronales Netzwerk zur Regression der Kopfhaltung. Wir zeigen Ergebnisse der Kopfhaltungsschätzung an zwei anspruchsvollen Benchmarks: BIWI und AFLW. Unser Ansatz übertrifft den Stand der Technik in beiden Datensätzen.