HyperAIHyperAI
vor 17 Tagen

Transformer-basierte Hilfsverlustfunktion für die Gesichtserkennung bei altersbedingten Variationen

Pritesh Prakash, Ashish Jacob Sam, S Umamaheswaran
Transformer-basierte Hilfsverlustfunktion für die Gesichtserkennung bei altersbedingten Variationen
Abstract

Das Altern stellt eine erhebliche Herausforderung im Bereich der Gesichtserkennung dar, da sich Hauttextur und -ton im Laufe der Zeit verändern können, was zu einer Veränderung der Gesichtsmerkmale führt und die Vergleichbarkeit von Bildern derselben Person, die Jahre auseinanderliegen, insbesondere in langfristigen Identifikationsszenarien, erheblich erschwert. Transformer-Netzwerke besitzen die Stärke, sequenzielle räumliche Beziehungen zu bewahren, die durch den Alterungseffekt hervorgerufen werden. In diesem Artikel wird eine Technik zur Verlustbewertung vorgestellt, die ein Transformer-Netzwerk als zusätzlichen Verlustterm im Bereich der Gesichtserkennung einsetzt. Die herkömmliche Metrik-Verlustfunktion nimmt typischerweise den finalen Embedding-Vektor des zentralen CNN-Backbones als Eingabe. Hier verwenden wir einen Transformer-Metrik-Verlust, eine kombinierte Herangehensweise, die sowohl Transformer-Verlust als auch Metrik-Verlust integriert. Diese Forschung zielt darauf ab, das Verhalten des Transformers bei der Verarbeitung der Ausgabe des Convolution-Netzwerks zu analysieren, wenn das CNN-Ergebnis als sequenzieller Vektor angeordnet wird. Diese sequenziellen Vektoren haben das Potenzial, die durch das Altern beeinflussten Texturen oder regionale Strukturen – wie Falten oder schlaffe Haut – zu überwinden. Der Transformer-Encoder nimmt kontextuelle Vektoren aus der letzten Faltungsschicht des Netzwerks als Eingabe. Die gelernten Merkmale können altersunabhängiger sein und die diskriminative Leistung des herkömmlichen Metrik-Verlust-Embeddings ergänzen. Mit dieser Technik evaluieren wir den Einfluss kombinierter Verlustfunktionen, indem wir den Transformer-Verlust mit verschiedenen Basis-Metrik-Verlustfunktionen kombinieren. Wir beobachten, dass eine solche Konfiguration es dem Netzwerk ermöglicht, state-of-the-art (SoTA)-Ergebnisse auf den Datensätzen LFW sowie altersvarianten Datensätzen (CA-LFW und AgeDB) zu erzielen. Diese Forschung erweitert die Rolle von Transformers im Bereich des maschinellen Sehens und eröffnet neue Möglichkeiten für die Untersuchung von Transformers als Verlustfunktion.