Subpixel-Heatmap-Regression für die Gesichtslandmarkenlokalisierung

Deep-Learning-Modelle, die auf Heatmap-Regression basieren, haben die Aufgabe der Gesichtslandmarkenlokalisierung revolutioniert. Bestehende Modelle arbeiten dabei robust unter großen Gesichtsposen, nicht einheitlicher Beleuchtung und Schatten, Verdeckungen und Selbstverdeckungen, sowie bei geringer Auflösung und Verschmierung. Dennoch leiden Heatmap-Regression-Ansätze trotz ihrer weiten Verbreitung unter Diskretisierungsfehlern, die sowohl beim Kodierungs- als auch beim Dekodierungsprozess der Heatmaps entstehen. In dieser Arbeit zeigen wir, dass diese Fehler eine überraschend große negative Wirkung auf die Genauigkeit der Gesichtsalignierung haben. Um dieses Problem zu mildern, schlagen wir eine neue Methode für den Heatmap-Kodierungs- und -Dekodierungsprozess vor, die die zugrundeliegende kontinuierliche Verteilung nutzt. Um den vollen Nutzen der neu vorgeschlagenen Kodierungs-Dekodierungs-Mechanismus auszuschöpfen, führen wir zudem ein Siamese-basiertes Trainingsverfahren ein, das die Konsistenz der Heatmaps bei verschiedenen geometrischen Bildtransformationen erzwingt. Unser Ansatz erzielt signifikante Verbesserungen auf mehreren Datensätzen und stellt eine neue State-of-the-Art-Leistung in der Gesichtslandmarkenlokalisierung dar. Der Quellcode sowie die vortrainierten Modelle werden unter https://www.adrianbulat.com/face-alignment zur Verfügung gestellt.