Zur Darstellung und Methodik der Schätzung von Kopfhaltungen im weiten und kurzen Bereich

Die Schätzung der Kopfhaltung (HPE) ist ein Problem von Interesse in der Computer Vision, um die Leistungsfähigkeit von Gesichtserkennungsaufgaben in halbfrontalen oder profilen Ansichten zu verbessern. Neuere Anwendungen erfordern die Analyse von Gesichtern im vollen Rotationsbereich von 360°. Traditionelle Ansätze zur Lösung der halbfrontalen und profilen Fälle sind jedoch nicht direkt auf den vollständigen Rotationsfall anwendbar. In dieser Arbeit analysieren wir die Methodik für kurzbereichs- und wegbereichs-HPE und diskutieren, welche Darstellungen und Metriken für jeden Fall angemessen sind. Wir zeigen, dass die weit verbreitete Darstellung durch Eulersche Winkel eine gute Wahl für kurzbereichs-HPE darstellt, aber bei extremen Rotationen nicht mehr geeignet ist. Der Gimbal-Lock-Effekt der Eulerschen Winkel verhindert jedoch, dass sie als gültige Metrik in irgendeinem Szenario verwendet werden können. Zudem überarbeiten wir die aktuelle Methode zur Kreuzdatensatzbewertung und bemerken, dass das Fehlen einer Ausrichtung zwischen den Referenzsystemen der Trainings- und Testdatensätze die Ergebnisse aller Arbeiten in der Literatur negativ beeinflusst. Wir führen ein Verfahren zur Quantifizierung dieser Fehljustierung ein sowie eine neue Methodik für Kreuzdatensatz-HPE, die neue, genauere State-of-the-Art-Werte (SOTA) für den 300W-LP|Biwi-Benchmark etabliert. Des Weiteren schlagen wir eine Verallgemeinerung des geodätischen Winkeldistanzmaßes vor, das es ermöglicht, einen Verlust zu konstruieren, der den Beitrag jedes Trainingsbeispiels zur Optimierung des Modells steuert. Abschließend stellen wir einen Benchmark für wegbereichs-HPE vor, der auf dem CMU Panoptic Datensatz basiert.