L2CS-Net: Feinabstimmende Blickrichtungsschätzung in ungehinderten Umgebungen

Der menschliche Blick ist ein entscheidender Hinweis, der in verschiedenen Anwendungen wie der Mensch-Roboter-Interaktion und der virtuellen Realität genutzt wird. In jüngster Zeit haben Ansätze basierend auf Faltungsneuralen Netzen (CNN) erhebliche Fortschritte bei der Vorhersage der Blickrichtung erzielt. Dennoch bleibt die Schätzung des Blicks in freier Umgebung (in-the-wild) eine herausfordernde Aufgabe aufgrund der Einzigartigkeit der Augenoptik, variabler Beleuchtungsbedingungen sowie der Vielfalt an Kopfpositionen und Blickrichtungen. In diesem Artikel stellen wir ein robusteres CNN-basiertes Modell zur Vorhersage des Blicks in unbeschränkten Szenarien vor. Wir schlagen vor, jeden Blickwinkel separat zu regressieren, um die Genauigkeit der Einzelwinkelschätzung zu verbessern und somit die Gesamtleistung der Blickvorhersage zu steigern. Zusätzlich verwenden wir zwei identische Verlustfunktionen, jeweils eine für jeden Winkel, um das Lernen des Netzwerks zu verbessern und dessen Generalisierungsfähigkeit zu erhöhen. Wir evaluieren unser Modell anhand zweier bekannter Datensätze, die unter unbeschränkten Bedingungen gesammelt wurden. Unser vorgeschlagenes Modell erreicht eine state-of-the-art Genauigkeit von 3,92° auf dem MPIIGaze-Datensatz und 10,41° auf dem Gaze360-Datensatz. Den Quellcode stellen wir öffentlich unter https://github.com/Ahmednull/L2CS-Net zur Verfügung.