Gestapelte Dense U-Netze mit Dualen Transformatoren für Robuste Gesichtsalignment

Die Lokalisierung von Gesichtspunkten in im Freien aufgenommenen Bildern ist ein wichtiges und herausforderndes Problem. Der aktuelle Stand der Technik basiert auf bestimmten Arten von tiefen Faltungsneuronalen Netzen (DCNNs), wie z.B. gestapelten U-Nets und Hourglass-Netzwerken. In dieser Arbeit schlagen wir innovativ gestapelte dichte U-Nets für diese Aufgabe vor. Wir entwerfen eine neuartige Netztopologie mit Skalenaggregation und einen Kanalaggregationsbaustein, um die Modellkapazität zu verbessern, ohne die Rechenkomplexität oder die Modellgröße zu opfern. Mit der Unterstützung deformierbarer Faltungen innerhalb der gestapelten dichten U-Nets und eines kohärenten Verlustes für Transformationen externer Daten erlangt unser Modell die Fähigkeit, räumlich invariant gegenüber beliebigen Eingabegesichtsbildern zu sein. Ausführliche Experimente auf vielen im Freien aufgenommenen Datensätzen bestätigen die Robustheit der vorgeschlagenen Methode bei extremen Positionen, übertriebenen Mimiken und starken Verdeckungen. Schließlich zeigen wir, dass genaue 3D-Gesichtsausrichtung der poseinvarianten Gesichtserkennung zugutekommen kann, wobei wir eine neue Top-Genauigkeit auf dem CFP-FP-Datensatz erreichen.