Command Palette
Search for a command to run...
LOTR: Gesichtslandmarkenlokalisierung mittels Lokalisierungstransformer
LOTR: Gesichtslandmarkenlokalisierung mittels Lokalisierungstransformer
Ukrit Watchareeruetai Benjaphan Sommana Sanjana Jain Pavit Noinongyao Ankush Ganguly Aubin Samacoits Samuel W.F. Earp Nakarin Sritrakool
Zusammenfassung
Diese Arbeit präsentiert ein neuartiges, auf Transformers basierendes Netzwerk zur Gesichtslandmarkenlokalisierung namens Localization Transformer (LOTR). Der vorgeschlagene Ansatz ist ein direkter Koordinaten-Regression-Ansatz, der ein Transformer-Netzwerk nutzt, um die räumliche Information in der Merkmalskarte effizienter auszunutzen. Ein LOTR-Modell besteht aus drei Hauptmodulen: 1) einem visuellen Backbone, der ein Eingabebild in eine Merkmalskarte umwandelt, 2) einem Transformer-Modul, das die Merkmalsrepräsentation des visuellen Backbones verbessert, und 3) einem Landmark-Vorhersagekopf, der direkt die Landmarkenkoordinaten aus der Darstellung des Transformers vorhersagt. Bei vorgeschnittenen und ausgerichteten Gesichtsbildern kann das vorgeschlagene LOTR-Modell end-to-end trainiert werden, ohne dass zusätzliche Nachbearbeitungsschritte erforderlich sind. Darüber hinaus wird die glatte Wing-Verlustfunktion eingeführt, die die Gradientenunterbrechung der herkömmlichen Wing-Verlustfunktion behebt und somit eine bessere Konvergenz im Vergleich zu Standardverlustfunktionen wie L1, L2 und Wing-Verlust ermöglicht. Experimentelle Ergebnisse auf dem JD-Landmark-Datensatz, bereitgestellt vom ersten Grand Challenge zur Lokalisierung von 106 Gesichtslandmarken, zeigen die Überlegenheit von LOTR gegenüber bestehenden Methoden in der Rangliste sowie gegenüber zwei jüngeren Heatmap-basierten Ansätzen. Auf dem WFLW-Datensatz erzielt das vorgeschlagene LOTR-Framework vergleichsweise hervorragende Ergebnisse im Vergleich zu mehreren state-of-the-art-Methoden. Zudem berichten wir über eine Verbesserung der Leistung von state-of-the-art-Gesichtserkennungssystemen, wenn unsere vorgeschlagenen LOTRs zur Gesichtsausrichtung eingesetzt werden.