Verbesserung der Gesichtsattributvorhersage durch semantische Segmentierung

Attribute sind semantisch bedeutsame Merkmale, deren Anwendbarkeit weitgehend über Kategorien hinaus reicht. Sie sind besonders wichtig bei der Beschreibung und Erkennung von Konzepten, für die keine expliziten Trainingsbeispiele gegeben sind, wie zum Beispiel beim \textit{Zero-Shot Learning}. Da Attribute menschlich beschreibbar sind, können sie auch für eine effiziente Mensch-Computer-Interaktion genutzt werden. In dieser Arbeit schlagen wir vor, semantische Segmentierung zur Verbesserung der Gesichtsattributvorhersage einzusetzen. Das Kernkonzept basiert darauf, dass viele Gesichtsattribute lokale Eigenschaften beschreiben. Mit anderen Worten, die Wahrscheinlichkeit eines Attributs in einem Gesichtsbild aufzutreten ist im räumlichen Bereich keineswegs gleichverteilt. Wir bauen unser Modell zur Vorhersage von Gesichtsattributen gemeinsam mit einem tiefen semantischen Segmentierungsnetzwerk auf. Dies nutzt die Lokalisierungshinweise, die durch die semantische Segmentierung gelernt werden, um die Aufmerksamkeit der Attributvorhersage auf jene Bereiche zu lenken, in denen verschiedene Attribute natürlicherweise auftreten. Als Ergebnis dieses Ansatzes können wir neben der Erkennung auch die Lokalisierung der Attribute durchführen, obwohl während des Trainings nur Zugang zu Bild-Level-Labels (schwache Überwachung) besteht. Wir evaluieren unsere vorgeschlagene Methode an den Datensätzen CelebA und LFWA und erzielen bessere Ergebnisse als frühere Arbeiten. Darüber hinaus zeigen wir, dass das umgekehrte Problem, nämlich die semantische Analyse von Gesichtern (Face Parsing), verbessert wird, wenn Gesichtsattribute verfügbar sind. Dies unterstreicht die Notwendigkeit, diese beiden miteinander verbundenen Aufgaben gemeinsam zu modellieren.