Ein tief initialisierter grob-zu-fein Ensemble aus Regressionsbäumen für die Gesichtsalignment

In diesem Paper präsentieren wir DCFE, eine Echtzeit-Methode zur Regressionsanalyse von Gesichtslandmarken, die auf einem coarse-to-fine Ensemble von Regressionsbäumen (ERT) basiert. Wir nutzen ein einfaches Convolutional Neural Network (CNN), um Wahrscheinlichkeitskarten für die Lage der Landmarken zu generieren. Diese werden anschließend durch den ERT-Regressor verfeinert, der durch die Anpassung eines 3D-Gesichtsmodells an die Landmarkenkarten initialisiert wird. Die coarse-to-fine-Struktur des ERT ermöglicht es uns, die kombinatorische Explosion der Teildesformationen effektiv zu bewältigen. Mit Hilfe des 3D-Modells adressieren wir zudem weitere zentrale Herausforderungen wie eine robuste Initialisierung des Regressors, Selbstverdeckungen sowie die gleichzeitige Analyse von frontal und seitlich gerichteten Gesichtern. In den Experimenten erzielt DCFE die bisher besten Ergebnisse auf den Datensätzen AFLW, COFW sowie 300W (privat und öffentlich verfügbare Versionen).