Kaskade aus Encoder-Decoder-CNNs mit lernbarem Koordinaten-Regressionsmodell für robuste Gesichtslandmarkenerkennung
Convolutional Neural Networks (CNNs) sind zur Referenztechnologie vieler Aufgaben im Bereich des Computersehens geworden. Obwohl CNNs zur Gesichtslandmarkenerkennung äußerst robust sind, weisen sie weiterhin eine unzureichende Genauigkeit bei der Verarbeitung von Bildern auf, die unter ungehinderten Bedingungen aufgenommen wurden. In diesem Artikel untersuchen wir den Einsatz einer Kaskade von Neural-Netz-Regressoren, um die Genauigkeit der geschätzten Gesichtslandmarken zu erhöhen. Hierzu werden zwei Encoder-Decoder-CNNs mit identischer Architektur hintereinander geschaltet. Das erste Netzwerk generiert eine Menge von Heatmaps, die eine grobe Schätzung der Landmarkenpositionen liefern. Das zweite Netzwerk, das mit synthetisch erzeugten Verdeckungen trainiert wurde, verfeinert die Positionen von mehrdeutigen und verdeckten Landmarken. Schließlich regresst eine dicht verbundene Schicht mit geteilten Gewichten für alle Heatmaps die Landmarkenkoordinaten präzise. Der vorgeschlagene Ansatz erreicht state-of-the-art-Ergebnisse auf den Datensätzen 300W, COFW und WFLW, die allgemein als die anspruchsvollsten öffentlichen Datensätze gelten.