Neuüberprüfung des Quantisierungsfehlers bei der Gesichtsausrichtung

Kürzlich sind Heatmap-Regression-Modelle zur Mainstream-Technik bei der Lokalisierung von Gesichtslandmarken geworden. Um die Berechnungskosten gering zu halten und den Speicherverbrauch zu reduzieren, erfolgt im gesamten Prozess eine Downsampling-Operation von der Rohbilddaten auf die Ausgabe-Heatmap. Doch welchen Einfluss hat der durch das Downsampling verursachte Quantisierungsfehler tatsächlich? Diese Frage wurde bisher in vorangegangenen Arbeiten kaum systematisch untersucht. Diese Arbeit schließt diese Lücke und ist die erste, die den negativen Einfluss quantitativ analysiert. Statistische Ergebnisse zeigen, dass der NME (Normalized Mean Error), der durch den Quantisierungsfehler verursacht wird, sogar mehr als ein Drittel des aktuellen State-of-the-Art (SOTA) erreicht – ein erheblicher Hindernis für einen neuen Durchbruch in der Gesichtslandmarkenlokalisierung. Um den Einfluss des Quantisierungseffekts zu kompensieren, schlagen wir eine neue Methode vor, die als Heatmap in Heatmap (HIH) bezeichnet wird. Diese nutzt zwei Kategorien von Heatmaps als Label-Darstellung zur Kodierung der Koordinaten, wobei der Wertebereich einer Heatmap jeweils einem Pixel der anderen Heatmap-Kategorie entspricht. Zudem kombinieren wir die Gesichtslandmarkenlokalisierung mit Ansätzen aus anderen Forschungsfeldern, um Vergleiche durchzuführen. Umfangreiche Experimente auf verschiedenen Benchmarks belegen die Durchführbarkeit von HIH und seine überlegene Leistung gegenüber anderen Ansätzen. Zudem erreicht die mittlere Fehlerquote auf dem WFLW-Datensatz 4,18, was deutlich über dem aktuellen SOTA liegt.