Zu genauer Detektion von Gesichtslandmarken mittels kaskadierter Transformer

Genaue Gesichtspunkte sind wesentliche Voraussetzungen für viele Aufgaben im Zusammenhang mit menschlichen Gesichtern. In dieser Arbeit wird ein genauer Gesichtspunkt-Detektor vorgeschlagen, der auf kaskadierten Transformer-Modellen basiert. Wir formulieren die Detektion von Gesichtspunkten als eine Koordinatenregressionsaufgabe, sodass das Modell end-to-end trainiert werden kann. Durch die Selbst-Aufmerksamkeit (self-attention) in den Transformatoren kann unser Modell die strukturierten Beziehungen zwischen den Landmarks inhärent ausnutzen, was die Landmarkdetektion unter schwierigen Bedingungen wie großer Pose und Verdeckung (occlusion) verbessert. Während des kaskadierten Feinabstimmungsprozesses ist unser Modell in der Lage, die relevantesten Bildmerkmale um das Ziel-Landmark zu extrahieren, um Koordinaten vorherzusagen. Dies geschieht auf Basis eines deformierbaren Aufmerksamheitsmechanismus (deformable attention mechanism), wodurch eine genauere Ausrichtung erreicht wird. Darüber hinaus schlagen wir einen neuen Decoder vor, der Bildmerkmale und Landmarkpositionen gleichzeitig verfeinert. Mit einer geringfügigen Erhöhung der Parameter verbessert sich die Detektionsleistung weiter. Unser Modell erzielt neue Standartwerte (state-of-the-art performance) auf mehreren standardisierten Benchmarks für die Detektion von Gesichtspunkten und zeigt eine gute Generalisierungsfähigkeit bei der Kreuzdatensatz-Evaluierung (cross-dataset evaluation).