HyperAIHyperAI
vor 2 Monaten

Selbstüberwachtes Lernen einer Gesichtsattribut-Embedding aus Video

Olivia Wiles; A. Sophia Koepke; Andrew Zisserman
Selbstüberwachtes Lernen einer Gesichtsattribut-Embedding aus Video
Abstract

Wir schlagen ein selbstüberwachtes Framework zur Lernung von Gesichtseigenschaften vor, das einfach durch das Betrachten von Videos eines sprechenden, lachenden und sich über die Zeit bewegenden menschlichen Gesichts arbeitet. Um diese Aufgabe zu erfüllen, führen wir ein Netzwerk ein, das als Facial Attributes-Net (FAb-Net) bezeichnet wird und das dazu trainiert wird, mehrere Frames aus der gleichen Videogesichtsspur in einen gemeinsamen niedrigdimensionalen Raum einzubetten. Mit diesem Ansatz leisten wir drei Beiträge: Erstens zeigen wir, dass das Netzwerk Informationen aus mehreren Quellenframes nutzen kann, indem es für jeden Frame Zuverlässigkeits-/Aufmerksamkeitsmasken (confidence/attention masks) vorhersagt; zweitens demonstrieren wir, dass die Verwendung eines Curriculum-Lernregimes die gelernte Einbettung verbessert; schließlich zeigen wir, dass das Netzwerk eine sinnvolle Gesichtseinbettung lernt, die Informationen über Kopfhaltung, Gesichtspunkte und Mimik kodiert – also Gesichtseigenschaften – ohne dabei mit irgendeiner etikettierten Daten überwacht worden zu sein. Unsere Ergebnisse sind diesen Aufgaben bei vergleichbaren oder sogar besseren Leistungen vergleichbar mit den neuesten selbstüberwachten Methoden und nähern sich der Leistung der überwachten Methoden an.