Ein datengetriebener Ansatz zur Verbesserung der 3D-Kopf-Pose-Schätzung
Die Schätzung der Kopfhaltung aus Bildern ist ein bedeutendes Forschungsthema in der Computer Vision. Zu ihren vielfältigen Anwendungen zählen die Detektion des Aufmerksamkeitsfokus, die Verfolgung von Fahrerverhalten sowie die Mensch-Computer-Interaktion. In jüngster Zeit konzentrierte sich die Forschung zur Schätzung der Kopfhaltung auf die Entwicklung von Modellen basierend auf tiefen konvolutionellen neuronalen Netzen (CNNs). Diese Modelle werden mittels Transfer-Learning und Bildaugmentierung trainiert, um bessere Ausgangszustände und eine höhere Robustheit gegenüber Verdeckung zu erzielen. Allerdings zielen herkömmliche Ansätze, die Transfer-Learning nutzen, in der Regel auf allgemeine Bilderkennung ab und führen keine detaillierte Untersuchung des Transfer-Learning von spezifischeren, auf Gesichtsaufgaben ausgerichteten Netzwerken durch. Zudem sind für die Schätzung der Kopfhaltung eine hohe Robustheit gegenüber starker Verdeckung sowie Rauschen wie Bewegungsunschärfe und geringer Helligkeit von entscheidender Bedeutung. In diesem Artikel stellen wir einen neuen Ansatz zur Bildaugmentierung vor, der die Schätzungsgenauigkeit des Kopfhaltungsmodells erheblich verbessert. Außerdem schlagen wir eine auf die Aufgabe abgestimmte Gewichtsinitialisierung vor, die die Schätzungsgenauigkeit weiter erhöht, indem wir die internen Aktivierungen von Modellen untersuchen, die für gesichtsbezogene Aufgaben wie Gesichtserkennung trainiert wurden. Wir evaluieren unser Kopfhaltungsschätzmodell an drei anspruchsvollen Testdatensätzen und erreichen Ergebnisse, die die der aktuellen State-of-the-Art-Methoden übertrifft.