HyperAIHyperAI
vor 17 Tagen

LOTR: Gesichtslandmarkenlokalisierung mittels Lokalisierungstransformer

Ukrit Watchareeruetai, Benjaphan Sommana, Sanjana Jain, Pavit Noinongyao, Ankush Ganguly, Aubin Samacoits, Samuel W.F. Earp, Nakarin Sritrakool
LOTR: Gesichtslandmarkenlokalisierung mittels Lokalisierungstransformer
Abstract

Diese Arbeit präsentiert ein neuartiges, auf Transformers basierendes Netzwerk zur Gesichtslandmarkenlokalisierung namens Localization Transformer (LOTR). Der vorgeschlagene Ansatz ist ein direkter Koordinaten-Regression-Ansatz, der ein Transformer-Netzwerk nutzt, um die räumliche Information in der Merkmalskarte effizienter auszunutzen. Ein LOTR-Modell besteht aus drei Hauptmodulen: 1) einem visuellen Backbone, der ein Eingabebild in eine Merkmalskarte umwandelt, 2) einem Transformer-Modul, das die Merkmalsrepräsentation des visuellen Backbones verbessert, und 3) einem Landmark-Vorhersagekopf, der direkt die Landmarkenkoordinaten aus der Darstellung des Transformers vorhersagt. Bei vorgeschnittenen und ausgerichteten Gesichtsbildern kann das vorgeschlagene LOTR-Modell end-to-end trainiert werden, ohne dass zusätzliche Nachbearbeitungsschritte erforderlich sind. Darüber hinaus wird die glatte Wing-Verlustfunktion eingeführt, die die Gradientenunterbrechung der herkömmlichen Wing-Verlustfunktion behebt und somit eine bessere Konvergenz im Vergleich zu Standardverlustfunktionen wie L1, L2 und Wing-Verlust ermöglicht. Experimentelle Ergebnisse auf dem JD-Landmark-Datensatz, bereitgestellt vom ersten Grand Challenge zur Lokalisierung von 106 Gesichtslandmarken, zeigen die Überlegenheit von LOTR gegenüber bestehenden Methoden in der Rangliste sowie gegenüber zwei jüngeren Heatmap-basierten Ansätzen. Auf dem WFLW-Datensatz erzielt das vorgeschlagene LOTR-Framework vergleichsweise hervorragende Ergebnisse im Vergleich zu mehreren state-of-the-art-Methoden. Zudem berichten wir über eine Verbesserung der Leistung von state-of-the-art-Gesichtserkennungssystemen, wenn unsere vorgeschlagenen LOTRs zur Gesichtsausrichtung eingesetzt werden.

LOTR: Gesichtslandmarkenlokalisierung mittels Lokalisierungstransformer | Neueste Forschungsarbeiten | HyperAI