RT-GENE: Echtzeit-Schätzung des Blickfelds in natürlichen Umgebungen

In dieser Arbeit betrachten wir das Problem der robusten Blickrichtungsschätzung in natürlichen Umgebungen. Große Abstände zwischen Kamera und Versuchsperson sowie starke Variationen in Kopfhaltung und Augenblickrichtung sind in solchen Umgebungen allgegenwärtig. Dies führt zu zwei Hauptnachteilen bestehender state-of-the-art-Methoden zur Blickrichtungsschätzung: erschwerter Annotation der Ground-Truth-Blickrichtung und abnehmende Schätzgenauigkeit, wenn die Bildauflösung aufgrund größerer Entfernung abnimmt. Zunächst erfassen wir einen neuartigen Datensatz mit vielfältigen Blick- und Kopfhaltungspositionen in einer natürlichen Umgebung. Die Problematik der Ground-Truth-Annotation lösen wir, indem wir die Kopfhaltung mittels eines Motion-Capture-Systems und die Augenblickrichtung mittels mobiler Eye-Tracking-Brillen messen. Zur Überbrückung der Diskrepanz zwischen Trainings- und Testbildern entfernen wir die störende Wirkung der Brillen durch Anwendung semantischer Bildinpainting-Techniken auf den betroffenen Bereich. Außerdem präsentieren wir einen neuen Echtzeit-Algorithmus, der auf appearance-basierten tiefen neuronalen Netzwerken mit erhöhter Kapazität basiert und die Vielfalt der Bilder im neuen Datensatz effektiv bewältigen kann. Experimente mit dieser Netzarchitektur werden auf mehreren unterschiedlichen Augenblickrichtungs-Datensätzen, einschließlich unseres eigenen, sowie in cross-dataset-Evaluierungen durchgeführt. Wir demonstrieren state-of-the-art-Leistung hinsichtlich Schätzgenauigkeit in allen Experimenten, und die Architektur zeigt auch auf Bildern mit geringerer Auflösung eine hervorragende Leistung.