HyperAIHyperAI
vor 17 Tagen

AGRNet: Adaptive Graph Representation Learning and Reasoning for Face Parsing

Gusi Te, Wei Hu, Yinglu Liu, Hailin Shi, Tao Mei
AGRNet: Adaptive Graph Representation Learning and Reasoning for Face Parsing
Abstract

Die Gesichtsparsing erfasst für jedes Pixel eines Gesichts eine zugehörige Klassenbezeichnung und hat in letzter Zeit erhebliche Aufmerksamkeit gefunden. Bisherige Ansätze haben bei der Gesichtsparsing gute Ergebnisse erzielt, berücksichtigen jedoch die Beziehungen zwischen den einzelnen Gesichtskomponenten nicht ausreichend. Tatsächlich stellt die Beziehung zwischen den Komponenten einen entscheidenden Hinweis dar, um mehrdeutige Pixel im Gesichtsbereich zu unterscheiden. Um dieses Problem anzugehen, schlagen wir eine adaptive Graph-Darstellungslern- und Schlussfolgerungsmethode für Gesichtskomponenten vor, die darauf abzielt, repräsentative Knoten zu lernen, die jede Komponente beschreiben, die Beziehungen zwischen den Komponenten auszunutzen und somit genaue Parsing-Ergebnisse auch in ambigen Bereichen zu erzielen. Insbesondere entwickeln wir eine adaptive und differenzierbare Graph-Abstraktionsmethode, die die Komponenten mittels Pixel-zu-Knoten-Projektion auf einem Graphen darstellt, ausgehend von einer vorhergesagten Parsing-Karte. Dabei werden Pixelmerkmale innerhalb eines bestimmten Gesichtsgebiets auf einen Knoten aggregiert. Darüber hinaus integrieren wir die Bildkanten explizit als Vorwissen in das Modell, was hilft, Kanten- von Nicht-Kanten-Pixeln während der Projektion zu unterscheiden und somit eine verbesserte Auflösung entlang der Kanten zu ermöglichen. Anschließend lernt unser Modell die Beziehungen zwischen den Komponenten, indem es Informationen über die Knoten des Graphen propagiert. Schließlich werden die verfeinerten Knotenmerkmale zurück auf das Pixelgitter projiziert, um die endgültige Parsing-Karte vorherzusagen. Zur Trainingsunterstützung schlagen wir eine diskriminative Verlustfunktion vor, die kleine Abstände zwischen Knoten im Merkmalsraum bestrafft, wodurch deutlich unterscheidbare Knoten mit starker semantischer Bedeutung entstehen. Experimentelle Ergebnisse zeigen die überlegene Leistung des vorgeschlagenen Modells auf mehreren Gesichtsparsing-Datensätzen sowie die Verallgemeinerbarkeit anhand einer Validierung im Bereich der menschlichen Parsing-Aufgabe.