Hybride grob-feine Klassifizierung für die Schätzung der Kopfhaltung

Die Schätzung der Kopfhaltung, die die intrinsischen Eulerschen Winkel (Yaw, Pitch, Roll) von einem Menschen berechnet, ist für die Schätzung des Blicks, die Gesichtsausrichtung und die 3D-Rekonstruktion entscheidend. Traditionelle Ansätze hängen stark von der Genauigkeit der Gesichtspunkte ab. Dies begrenzt ihre Leistungsfähigkeit, insbesondere wenn das Gesicht nicht gut sichtbar ist. In dieser Arbeit kombinieren wir die grobe und feine Regressionsausgabe in einem tiefen Netzwerk, um die Schätzung ohne Gesichtspunkte durchzuführen. Durch den Einsatz zusätzlicher Quantisierungseinheiten für die Winkel wird ein feiner Klassifikator mit Hilfe anderer unterstützender grober Einheiten trainiert. Die Integration der Regression wird verwendet, um die endgültige Vorhersage zu erhalten. Der vorgeschlagene Ansatz wurde an drei anspruchsvollen Benchmarks evaluiert. Er erreicht den aktuellen Stand der Technik auf AFLW2000 und BIWI und erzielt gute Ergebnisse auf AFLW. Der Code wurde auf Github veröffentlicht.