Mehraufgabenkopfpose-Schätzung im Freien

Wir präsentieren einen auf Deep Learning basierenden Multi-Task-Ansatz zur Kopfpose-Schätzung in Bildern. Wir tragen eine Netzwerkarchitektur und einen Trainingsansatz bei, der die starken Abhängigkeiten zwischen Gesichts-Pose, Ausrichtung und Sichtbarkeit nutzt, um ein hochleistungsfähiges Modell für alle drei Aufgaben zu erzielen. Unsere Architektur ist ein Encoder-Decoder-CNN mit Residual-Blöcken und seitlichen Skip-Verbindungen. Wir zeigen, dass die Kombination der Kopfpose-Schätzung mit der auf Merkmalen basierenden Gesichtsausrichtung die Leistung der ersten Aufgabe erheblich verbessert. Zudem trägt die Platzierung der Pose-Aufgabe in der Bottleneck-Schicht am Ende des Encoders sowie die Positionierung von Aufgaben, die auf räumlichen Informationen basieren, wie Sichtbarkeit und Ausrichtung, in der letzten Decoder-Schicht zur Steigerung der Gesamtleistung bei. In den durchgeführten Experimenten übertrifft das vorgeschlagene Modell die derzeitigen State-of-the-Art-Methoden sowohl bei der Gesichts-Pose-Schätzung als auch bei der Sichtbarkeitsabschätzung. Durch Hinzufügen eines abschließenden Merkmalregressions-Schritts erzielt es zudem Ergebnisse für die Gesichtsausrichtung, die mit denen der State-of-the-Art vergleichbar sind.