HyperAIHyperAI
vor 2 Monaten

Feinmaschige Kopfhaltungsschätzung ohne Schlüsselpunkte

Nataniel Ruiz; Eunji Chong; James M. Rehg
Feinmaschige Kopfhaltungsschätzung ohne Schlüsselpunkte
Abstract

Die Schätzung der Kopfhaltung einer Person ist ein entscheidendes Problem, das eine Vielzahl von Anwendungen hat, wie zum Beispiel die Unterstützung bei der Blickrichtungsschätzung, die Modellierung von Aufmerksamkeit, das Anpassen von 3D-Modellen an Videos und die Durchführung von Gesichtsausrichtung. Traditionell wird die Kopfhaltung durch das Schätzen bestimmter Schlüsselpunkte aus dem Zielgesicht und das Lösen des 2D-zu-3D-Korrespondenzproblems mit einem durchschnittlichen menschlichen Kopfmodell berechnet. Wir argumentieren, dass dies eine anfällige Methode ist, da sie vollständig auf der Leistungsfähigkeit der Landmarkenerkennung, dem externen Kopfmodell und einem ad-hoc-Anpassungsschritt basiert. Wir präsentieren eine elegante und robuste Methode zur Bestimmung der Haltung durch das Training eines mehrfach-verlustbasierten Faltungsneuronalen Netzes (CNN) auf 300W-LP, einem umfangreichen synthetisch erweiterten Datensatz, um intrinsische Eulersche Winkel (Gier-, Nick- und Rollwinkel) direkt aus den Bildintensitäten durch gemeinsame klassifizierende und regressive Pose-Schätzungen vorherzusagen. Wir führen empirische Tests auf gängigen Benchmarks für freie Pose-Schätzdatensätze durch, die Stand-of-the-Art-Ergebnisse zeigen. Zudem testen wir unsere Methode auf einem Datensatz, der normalerweise für Pose-Schätzungen unter Verwendung von Tiefendaten verwendet wird, und schließen damit den Abstand zu den besten Methoden für Tiefen-Pose-Schätzungen. Wir stellen unser Trainings- und Testcode als Open Source zur Verfügung sowie veröffentlichen unsere vortrainierten Modelle.