HyperAIHyperAI

Command Palette

Search for a command to run...

Rekurrentes CNN für die 3D-Blickschätzung unter Verwendung von Erscheinungs- und Formmerkmalen

Cristina Palmero Javier Selva Mohammad Ali Bagheri Sergio Escalera

Zusammenfassung

Das Blickverhalten ist ein wichtiges nichtverbales Signal in der Verarbeitung sozialer Signale und der Mensch-Computer-Interaktion. In dieser Arbeit adressieren wir das Problem der personen- und Kopfhaltungsunabhängigen 3D-Blichschätzung von Fernkameras mithilfe eines multimodalen rekurrenten Faltungsneuronalen Netzes (CNN). Wir schlagen vor, Gesicht, Augenbereich und Gesichtslandmarks als individuelle Ströme in einem CNN zu kombinieren, um den Blick in Stillbildern zu schätzen. Anschließend nutzen wir die dynamische Natur des Blicks, indem wir die gelernten Merkmale aller Frames einer Sequenz einem many-to-one rekurrenten Modul zuführen, das den 3D-Blickvektor des letzten Frames vorhersagt. Unsere multimodale statische Lösung wird auf einem breiten Spektrum von Kopfhaltungen und Blickrichtungen evaluiert und erreicht eine erhebliche Verbesserung von 14,6 % im Vergleich zum Stand der Technik auf dem EYEDIAP-Datensatz. Diese Leistung verbessert sich um weitere 4 %, wenn die zeitliche Modalität berücksichtigt wird.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp