HyperAIHyperAI
vor 16 Tagen

RoI Tanh-Polar Transformer Netzwerk für die Gesichtsaufteilung in freier Umgebung

Yiming Lin, Jie Shen, Yujiang Wang, Maja Pantic
RoI Tanh-Polar Transformer Netzwerk für die Gesichtsaufteilung in freier Umgebung
Abstract

Face Parsing zielt darauf ab, pixelgenaue Labels für die einzelnen Gesichtsbestandteile einer Zielfläche in einem Bild vorherzusagen. Bisherige Ansätze schneiden typischerweise das Zielgesicht aus dem Eingabebild anhand eines während der Vorverarbeitung berechneten Begrenzungsrechtecks aus und können daher nur innere Gesichtsregionen von Interesse (RoIs) parsen. Periphere Bereiche wie Haare werden ignoriert, und benachbarte Gesichter, die teilweise im Begrenzungsrechteck enthalten sind, können Ablenkungen verursachen. Darüber hinaus werden diese Methoden ausschließlich an nahezu frontal ausgerichteten Porträtbildern trainiert und evaluiert, sodass ihre Leistungsfähigkeit in realen, unkontrollierten Umgebungen bisher unerforscht blieb. Um diese Probleme anzugehen, leistet dieser Artikel drei Beiträge. Erstens führen wir die iBugMask-Datenbank für das Face Parsing in freier Wildbahn ein, die aus 21.866 Trainingsbildern und 1.000 Testbildern besteht. Die Trainingsbilder wurden durch Erweiterung einer bestehenden Datenbank mit großen Gesichtsposen generiert. Die Testbilder wurden manuell mit 11 Gesichtsregionen annotiert und weisen erhebliche Variationen in Größe, Pose, Ausdruck und Hintergrund auf. Zweitens stellen wir die RoI-Tanh-Polar-Transformation vor, die das gesamte Bild in eine Tanh-Polar-Darstellung abbildet, wobei das Verhältnis zwischen Gesichtsfläche und Kontext durch das Ziel-Begrenzungsrechteck festgelegt wird. Diese neue Darstellung enthält sämtliche Informationen des ursprünglichen Bildes und ermöglicht Rotationsäquivalenz in neuronalen Netzen mit Faltungen (CNNs). Drittens schlagen wir einen hybriden Residual-Representation-Lernblock vor, den wir HybridBlock nennen, der sowohl Faltungsschichten im Tanh-Polar-Raum als auch im Tanh-Kartesischen-Raum enthält und somit unterschiedliche Formen von Rezeptivfeldern in CNNs zulässt. Durch umfangreiche Experimente zeigen wir, dass die vorgeschlagene Methode die bisher beste Leistung für das Face Parsing in freier Wildbahn erreicht und keine Gesichtslandmarken zur Ausrichtung benötigt.

RoI Tanh-Polar Transformer Netzwerk für die Gesichtsaufteilung in freier Umgebung | Neueste Forschungsarbeiten | HyperAI