Ein effektives tiefes Netzwerk zur Kopfpose-Schätzung ohne Schlüsselpunkte

Die Schätzung der Kopfpose beim Menschen ist in den letzten Jahren ein zentrales Problem der Gesichtsanalyse mit zahlreichen Anwendungen im Bereich des Computer Vision, beispielsweise bei der Blickrichtungsschätzung, virtueller Realität und Fahrerassistenzsystemen. Aufgrund der Bedeutung dieses Problems ist es notwendig, ein kompaktes Modell zu entwerfen, das die Aufgabe der Kopfpose-Schätzung effizient löst, um die Rechenkosten bei der Bereitstellung in anwendungsbasierten facial analysis-Systemen – wie beispielsweise großflächigen Überwachungskamerasystemen oder intelligenten Kameras – zu reduzieren, ohne dabei die Genauigkeit zu beeinträchtigen. In dieser Arbeit stellen wir ein leichtgewichtiges Modell vor, das das Problem der Kopfpose-Schätzung effektiv adressiert. Unser Ansatz gliedert sich in zwei Hauptphasen: 1) Zunächst trainieren wir mehrere Lehrmodelle auf einem synthetischen Datensatz – 300W-LPA –, um pseudowahre Kopfpose-Labels zu generieren. 2) Anschließend entwerfen wir eine Architektur mit einem ResNet18-Backbone und trainieren unser vorgeschlagenes Modell mittels eines Ensembles dieser Pseudolabels über den Prozess des Knowledge Distillation. Zur Bewertung der Wirksamkeit unseres Modells nutzen wir zwei realweltbasierte Datensätze für die Kopfpose-Schätzung: AFLW-2000 und BIWI. Experimentelle Ergebnisse zeigen, dass unser vorgeschlagenes Modell die Genauigkeit im Vergleich zu aktuellen State-of-the-Art-Methoden erheblich verbessert. Zudem erreicht unser Modell eine Echtzeit-Geschwindigkeit von etwa 300 FPS bei der Inferenz auf einer Tesla V100-GPU.