2D-Bild-Schätzung der Kopfhaltung durch latente Raumregression unter Okklusionsbedingungen

Die Kopfhaltung ist ein herausforderndes Problem im Bereich der Computer Vision, das aufgrund seiner vielfältigen Anwendungen intensiv untersucht wurde. Dennoch unterperformen aktuelle state-of-the-art-Systeme weiterhin bei der Präsenz von Verdeckungen und sind in solchen Szenarien für viele Aufgaben nicht zuverlässig. Diese Arbeit schlägt einen neuen tiefen Lernansatz für das Problem der Kopfhaltungsschätzung unter Verdeckungen vor. Die Strategie basiert auf einer latente Raum Regression, die als grundlegender Schlüssel zur besseren Strukturierung des Problems für verdeckte Szenarien dient. Unser Modell übertrifft mehrere state-of-the-art-Methodologien für verdeckte Kopfhaltungsschätzung (HPE) und erreicht eine vergleichbare Genauigkeit für nicht-verdeckte Szenarien. Wir demonstrieren die Nützlichkeit des vorgeschlagenen Ansatzes durch: (i) zwei synthetisch verdeckte Versionen der BIWI- und AFLW2000-Datensätze, (ii) reale Verdeckungen des Pandora-Datensatzes und (iii) eine Anwendung in Mensch-Roboter-Interaktionsszenarien, in denen Gesichtsverdeckungen häufig auftreten, insbesondere beim autonomen Füttern durch einen Roboterarm.