Deep Head Pose Estimation mit synthetischen Bildern und partieller adversarischer Domänenanpassung für kontinuierliche Labelräume

Die Schätzung der Kopfpose zielt darauf ab, eine präzise Pose aus einem Bild vorherzusagen. Aktuelle Ansätze basieren auf überwachtem Deep Learning, das typischerweise große Mengen an gelabelten Daten erfordert. Manuelle oder sensorbasierte Annotationen von Kopfposen sind fehleranfällig. Eine Lösung besteht darin, synthetische Trainingsdaten durch die Darstellung von 3D-Gesichtsmodellen zu generieren. Allerdings können die Unterschiede (Domain-Gap) zwischen gerenderten (Quell-Domain) und realen Welt (Ziel-Domain) Bildern zu einer geringen Leistung führen. Fortschritte im Bereich des visuellen Domain Adaptation ermöglichen es, die Auswirkungen von Domänenunterschieden mithilfe von adversarialen neuronalen Netzen zu verringern, indem die Merkmalsräume zwischen den Domänen durch die Erzwingung von domäneninvarianten Merkmalen angeglichen werden. Während frühere Arbeiten im Bereich des visuellen Domain Adaptation in der Regel diskrete und gemeinsame Label-Räume voraussetzen, sind diese Annahmen für Pose-Schätzungsaufgaben beide nicht gültig. Wir präsentieren erstmals Domain Adaptation für die Kopfpose-Schätzung mit Fokus auf teilweise gemeinsame und kontinuierliche Label-Räume. Genauer adaptieren wir die dominierenden Gewichtungsansätze für kontinuierliche Label-Räume, indem wir während des Trainings eine gewichtete Resampling-Strategie auf der Quell-Domain anwenden. Zur Evaluation unseres Ansatzes überarbeiten und erweitern wir bestehende Datensätze, wodurch ein neuer Benchmark für visuelles Domain Adaptation entsteht. Unsere Experimente zeigen, dass unsere Methode die Genauigkeit der Kopfpose-Schätzung für reale Welt-Bilder verbessert, obwohl ausschließlich Labels aus synthetischen Bildern verwendet werden.