vor 9 Tagen

End-to-End Video-Gaze-Schätzung durch die Erfassung des räumlich-zeitlichen Interaktionskontexts von Kopf-Gesicht-Auge

Yiran Guan, Zhuoguang Chen, Wenzheng Zeng, Zhiguo Cao, Yang Xiao

Abstract

In diesem Beitrag stellen wir eine neue Methode, Multi-Clue Gaze (MCGaze), vor, die die Video-Gaze-Schätzung durch die Erfassung des räumlich-zeitlichen Interaktionskontexts zwischen Kopf, Gesicht und Augen auf eine end-to-end-Lernweise ermöglicht, was bisher noch nicht ausreichend berücksichtigt wurde. Der Hauptvorteil von MCGaze liegt darin, dass die Aufgaben der Clue-Lokalisierung von Kopf, Gesicht und Auge gemeinsam in einem einzigen Schritt für die Gaze-Schätzung gelöst werden können, wobei eine gemeinsame Optimierung erfolgt, um die optimale Leistung zu erzielen. Dabei findet ein Austausch räumlich-zeitlicher Kontexte zwischen den Clues am Kopf, Gesicht und Auge statt. Dadurch können die endgültigen Gaze-Schätzungen, die durch die Fusion von Merkmalen aus verschiedenen Abfragen entstehen, gleichzeitig globale Hinweise aus Kopf und Gesicht sowie lokale Hinweise aus den Augen berücksichtigen, was die Leistung grundlegend verbessert. Gleichzeitig gewährleistet die einstufige Ausführungsweise auch eine hohe Laufzeiteffizienz. Experimente auf dem anspruchsvollen Gaze360-Datensatz bestätigen die Überlegenheit unseres Ansatzes. Der Quellcode wird unter https://github.com/zgchen33/MCGaze veröffentlicht.