Rekurrentes CNN für die 3D-Blickschätzung unter Verwendung von Erscheinungs- und Formmerkmalen

Das Blickverhalten ist ein wichtiges nichtverbales Signal in der Verarbeitung sozialer Signale und der Mensch-Computer-Interaktion. In dieser Arbeit adressieren wir das Problem der personen- und Kopfhaltungsunabhängigen 3D-Blichschätzung von Fernkameras mithilfe eines multimodalen rekurrenten Faltungsneuronalen Netzes (CNN). Wir schlagen vor, Gesicht, Augenbereich und Gesichtslandmarks als individuelle Ströme in einem CNN zu kombinieren, um den Blick in Stillbildern zu schätzen. Anschließend nutzen wir die dynamische Natur des Blicks, indem wir die gelernten Merkmale aller Frames einer Sequenz einem many-to-one rekurrenten Modul zuführen, das den 3D-Blickvektor des letzten Frames vorhersagt. Unsere multimodale statische Lösung wird auf einem breiten Spektrum von Kopfhaltungen und Blickrichtungen evaluiert und erreicht eine erhebliche Verbesserung von 14,6 % im Vergleich zum Stand der Technik auf dem EYEDIAP-Datensatz. Diese Leistung verbessert sich um weitere 4 %, wenn die zeitliche Modalität berücksichtigt wird.