Generelle Gesichtsrepräsentationslernung in einer visuell-sprachlichen Weise

Wie lernt man eine universelle Gesichtsrepräsentation, die alle Aufgaben der Gesichtsanalyse verbessert? Dieser Artikel macht einen Schritt in Richtung dieses Ziels. In dieser Arbeit untersuchen wir die Transferleistung vortrainierter Modelle auf Aufgaben der Gesichtsanalyse und stellen einen Rahmenwerk, namens FaRL, für eine allgemeine Gesichtsrepräsentationslernung im visuell-sprachlichen Ansatz vor. Auf der einen Seite beinhaltet der Rahmenwerk eine kontrastive Verlustfunktion, um hochwertige semantische Bedeutung aus Bild-Text-Paaren zu lernen. Auf der anderen Seite schlagen wir vor, gleichzeitig niedrigstufige Informationen zu erfassen, um die Gesichtsrepräsentation weiter zu verbessern, indem wir ein maskiertes Bildmodellierungsverfahren einfügen. Wir führen das Vortrainieren auf LAION-FACE durch, einer Datenbank mit einer großen Menge an Gesichtsbild-Text-Paaren, und bewerten die Repräsentationsfähigkeit auf mehreren nachgeschalteten Aufgaben. Wir zeigen, dass FaRL im Vergleich zu früheren vortrainierten Modellen eine bessere Transferleistung erzielt. Zudem bestätigen wir seine Überlegenheit im Niedrig-Daten-Szenario. Wichtiger noch: Unser Modell übertrifft die Stand der Technik bei Aufgaben der Gesichtsanalyse, einschließlich Gesichtsparsing und Gesichtsalignment.