HyperAIHyperAI

Command Palette

Search for a command to run...

End-to-End Video-Gaze-Schätzung durch die Erfassung des räumlich-zeitlichen Interaktionskontexts von Kopf-Gesicht-Auge

Yiran Guan Zhuoguang Chen Wenzheng Zeng Zhiguo Cao Yang Xiao

Zusammenfassung

In diesem Beitrag stellen wir eine neue Methode, Multi-Clue Gaze (MCGaze), vor, die die Video-Gaze-Schätzung durch die Erfassung des räumlich-zeitlichen Interaktionskontexts zwischen Kopf, Gesicht und Augen auf eine end-to-end-Lernweise ermöglicht, was bisher noch nicht ausreichend berücksichtigt wurde. Der Hauptvorteil von MCGaze liegt darin, dass die Aufgaben der Clue-Lokalisierung von Kopf, Gesicht und Auge gemeinsam in einem einzigen Schritt für die Gaze-Schätzung gelöst werden können, wobei eine gemeinsame Optimierung erfolgt, um die optimale Leistung zu erzielen. Dabei findet ein Austausch räumlich-zeitlicher Kontexte zwischen den Clues am Kopf, Gesicht und Auge statt. Dadurch können die endgültigen Gaze-Schätzungen, die durch die Fusion von Merkmalen aus verschiedenen Abfragen entstehen, gleichzeitig globale Hinweise aus Kopf und Gesicht sowie lokale Hinweise aus den Augen berücksichtigen, was die Leistung grundlegend verbessert. Gleichzeitig gewährleistet die einstufige Ausführungsweise auch eine hohe Laufzeiteffizienz. Experimente auf dem anspruchsvollen Gaze360-Datensatz bestätigen die Überlegenheit unseres Ansatzes. Der Quellcode wird unter https://github.com/zgchen33/MCGaze veröffentlicht.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
End-to-End Video-Gaze-Schätzung durch die Erfassung des räumlich-zeitlichen Interaktionskontexts von Kopf-Gesicht-Auge | Paper | HyperAI