Faltungsbasierte Aggregation lokaler Beweise für die Gesichtsvermessung bei großer Pose

Methoden zur unbeschränkten Gesichtsalignment müssen zwei Anforderungen erfüllen: Sie dürfen sich nicht auf eine präzise Initialisierung/Gesichtserkennung stützen und müssen gleichwertig gut für das gesamte Spektrum von Gesichtsposen funktionieren. Sofern wir wissen, gibt es derzeit keine Methoden, die diese Anforderungen ausreichend erfüllen, und in diesem Paper stellen wir Convolutional Aggregation of Local Evidence (CALE) vor, eine speziell für die Bewältigung beider Herausforderungen konzipierte Architektur eines Faltungsneuronalen Netzes (CNN). Insbesondere beseitigt unser System die Notwendigkeit präziser Gesichtserkennung durch eine erste Detektion von Gesichtsteilen, die für jede Gesichtslandmarke eine Zuverlässigkeitsbewertung (lokale Evidenz) für deren Position liefert. Anschließend aggregiert unser System diese Score-Karten zusammen mit frühen CNN-Features durch gemeinsame Regression, um die Position der Landmarken zu verfeinern. Neben der Funktion als grafisches Modell stellt die CNN-Regression eine zentrale Eigenschaft unseres Systems dar, da sie das Netzwerk anleitet, Kontextinformationen zu nutzen, um die Position von verdeckten Landmarken vorherzusagen – ein typisches Problem bei extremen Gesichtsposen. Das gesamte System wird end-to-end mit Zwischenüberwachung trainiert. Bei Anwendung auf AFLW-PIFA, der bisher anspruchsvollsten Testmenge für menschliche Gesichtsalignment, erreicht unsere Methode gegenüber anderen kürzlich veröffentlichten Ansätzen zur Alignment bei großen Gesichtsposen eine Verbesserung der Lokalisierungsgenauigkeit um mehr als 50 %. Über die Anwendung auf menschliche Gesichter hinaus zeigen wir zudem, dass CALE auch effektiv bei starken Veränderungen in Form und Erscheinungsbild, wie sie typischerweise bei Tiergesichtern auftreten, ist.