HyperAIHyperAI
vor 2 Monaten

Style-Aggregierungsnetzwerk für die Detektion von Gesichtspunkten

Xuanyi Dong; Yan Yan; Wanli Ouyang; Yi Yang
Style-Aggregierungsnetzwerk für die Detektion von Gesichtspunkten
Abstract

Neuere Fortschritte bei der Erkennung von Gesichtspunkten erreichen Erfolg durch das Lernen diskriminativer Merkmale aus der reichen Verformung von Gesichtsformen und -haltungen. Neben der Varianz der Gesichter selbst wird die intrinsische Varianz der Bildstile, z.B. Graustufen- vs. Farbbilder, hell vs. dunkel, intensiv vs. blass usw., ständig vernachlässigt. Dieses Problem wird unvermeidbar, da zunehmend Webbilder aus verschiedenen Quellen für das Training neuronaler Netze gesammelt werden. In dieser Arbeit schlagen wir einen stilaggregierten Ansatz vor, um die große intrinsische Varianz der Bildstile bei der Erkennung von Gesichtspunkten zu bewältigen. Unsere Methode transformiert ursprüngliche Gesichtsbilder in stilaggregierte Bilder mithilfe eines generativen adversären Moduls (generative adversarial module). Das vorgeschlagene Schema verwendet das stilaggregierte Bild, um Gesichtsbilder zu erhalten, die gegenüber Umgebungsänderungen robuster sind. Anschließend trainieren die ursprünglichen Gesichtsbilder zusammen mit den stilaggregierten Bildern einen Landmarkendetektor, wobei sie sich gegenseitig ergänzen. Auf diese Weise nimmt unsere Methode für jedes Gesicht zwei Bilder als Eingabe entgegen, nämlich eines im ursprünglichen Stil und das andere im aggregierten Stil. In Experimenten beobachten wir, dass die große Varianz der Bildstile die Leistungsfähigkeit von Gesichtspunkt-Detektoren verschlechtern kann. Darüber hinaus zeigen wir die Robustheit unserer Methode gegenüber der großen Varianz der Bildstile durch einen Vergleich mit einer Variante unseres Ansatzes, bei dem das generative adversäre Modul entfernt wurde und keine stilaggregierten Bilder verwendet werden. Unser Ansatz erweist sich als gut leistungsfähig im Vergleich zu den neuesten Algorithmen auf den Benchmark-Datensätzen AFLW und 300-W. Der Code ist öffentlich auf GitHub verfügbar: https://github.com/D-X-Y/SAN