6D-Rotationsdarstellung für die freie Kopfpose-Schätzung

In diesem Paper präsentieren wir eine Methode zur unbeschränkten end-to-end-Kopfpose-Schätzung. Wir behandeln das Problem unscharfer Rotationslabels, indem wir die Rotationsmatrix-Formalismus für unsere Ground-Truth-Daten einführen und eine kontinuierliche 6D-Rotationsmatrix-Repräsentation für eine effiziente und robuste direkte Regression vorschlagen. Auf diese Weise kann unsere Methode die vollständige Rotations-Struktur lernen, im Gegensatz zu früheren Ansätzen, die die Pose-Schätzung auf einen engen Winkelbereich beschränken, um zufriedenstellende Ergebnisse zu erzielen. Zusätzlich schlagen wir eine auf der Geodäten-Distanz basierende Verlustfunktion vor, die unser Netzwerk hinsichtlich der SO(3)-Mannigfaltigkeitsgeometrie bestraft. Experimente auf den öffentlichen Datensätzen AFLW2000 und BIWI zeigen, dass unsere vorgeschlagene Methode andere state-of-the-art-Verfahren signifikant um bis zu 20 % übertrifft. Wir stellen unseren Trainings- und Testcode sowie unsere vortrainierten Modelle öffentlich zur Verfügung: https://github.com/thohemp/6DRepNet.