HyperAIHyperAI
vor 17 Tagen

Ein Auge ist genug: Leichte Ensembles für die Blickrichtungsschätzung mit einzelnen Encodern

Rishi Athavale, Lakshmi Sritan Motati, Rohan Kalahasty
Ein Auge ist genug: Leichte Ensembles für die Blickrichtungsschätzung mit einzelnen Encodern
Abstract

Die Schätzung des Blickrichtungsvektors hat in den letzten Jahren erheblich an Genauigkeit gewonnen. Dennoch nutzen diese Modelle häufig nicht die verschiedenen Computer-Vision-(CV)-Algorithmen und -Techniken (wie beispielsweise kleine ResNet- und Inception-Netzwerke sowie Ensemble-Modelle), die sich bei anderen CV-Aufgaben als wirksam erwiesen haben. Zudem erfordern die meisten aktuellen Modelle zur Blickrichtungsschätzung entweder beide Augen oder das gesamte Gesicht, während reale Datensätze nicht immer beide Augen in hoher Auflösung liefern. Daher schlagen wir ein Modell zur Blickrichtungsschätzung vor, das die Architekturen von ResNet und Inception nutzt und Vorhersagen auf Basis lediglich eines Augenbildes trifft. Zudem stellen wir ein Ensemble-Kalibrationsnetzwerk vor, das die Vorhersagen mehrerer einzelner Architekturen zur subjekt-spezifischen Schätzung nutzt. Durch den Einsatz leichtgewichtiger Architekturen erreichen wir auf dem GazeCapture-Datensatz eine hohe Leistung mit äußerst geringer Anzahl an Modellparametern. Bei Verwendung beider Augen als Eingabe erzielen wir eine Vorhersagegenauigkeit von 1,591 cm auf dem Testset ohne Kalibrierung und 1,439 cm mit einem Ensemble-Kalibrationsmodell. Mit nur einem Auge als Eingabe erreichen wir dennoch einen durchschnittlichen Fehler von 2,312 cm ohne Kalibrierung und 1,951 cm mit dem Ensemble-Kalibrationsmodell. Zudem beobachten wir signifikant geringere Fehler bei den Bildern des rechten Auges im Testset, was für die Gestaltung zukünftiger auf Blickrichtungsschätzung basierender Werkzeuge von Bedeutung sein könnte.