Laplace-Landmarken-Lokalisation

Die Lokalisierung von Landmarken in Bildern und Videos ist ein klassisches Problem, das auf verschiedene Weise gelöst wird. Heutzutage, da tiefgreifende Netze im maschinellen Lernen vorherrschen, gibt es erneutes Interesse daran, die Technologien zur Erkennung von Gesichtslandmarken so zu verbessern, dass sie anspruchsvollere Daten verarbeiten können. Die meisten Bemühungen verwenden Netzwerkziele basierend auf L1- oder L2-Normen, die mehrere Nachteile haben. Zunächst werden die Positionen der Landmarken aus generierten Heatmaps (d.h., Konfidenzkarten) bestimmt, bei denen die vorhergesagten Landmarkepositionen (d.h., die Mittelwerte) bestraft werden, ohne den Umfang zu berücksichtigen: Ein hoher Streuungsgrad entspricht einem niedrigen Konfidenzniveau und umgekehrt. Dafür führen wir ein LaplaceKL-Ziel ein, das eine geringe Zuverlässigkeit bestraft. Ein weiteres Problem ist die Abhängigkeit von annotierten Daten, die teuer zu beschaffen sind und fehleranfällig. Um beide Probleme anzugehen, schlagen wir einen adversären Trainingsrahmen vor, der unannotierte Daten nutzt, um die Leistung des Modells zu verbessern. Unsere Methode erreicht den aktuellen Stand der Technik in allen 300W-Benchmarks und rangiert als zweitbeste auf dem Datensatz Annotated Facial Landmarks in the Wild (AFLW). Darüber hinaus ist unser Modell robust und hat eine reduzierte Größe: 1/8 der Kanäle (d.h., 0,0398 MB) sind vergleichbar mit dem aktuellen Stand der Technik in Echtzeit auf CPU. Somit zeigen wir, dass unsere Methode für praktische Anwendungen von hoher Wertigkeit ist.