HyperAIHyperAI
vor 2 Monaten

MARLIN: Masked Autoencoder für die Darstellungslernung von Gesichtsvideos

Cai, Zhixi ; Ghosh, Shreya ; Stefanov, Kalin ; Dhall, Abhinav ; Cai, Jianfei ; Rezatofighi, Hamid ; Haffari, Reza ; Hayat, Munawar
MARLIN: Masked Autoencoder für die Darstellungslernung von Gesichtsvideos
Abstract

Dieses Papier schlägt einen selbstüberwachten Ansatz vor, um universelle Gesichtsdarstellungen aus Videos zu lernen, die sich auf eine Vielzahl von Gesichtsanalysetaichen übertragen lassen, wie zum Beispiel der Erkennung von Gesichtseigenschaften (Facial Attribute Recognition, FAR), der Erkennung von Gesichtsausdrücken (Facial Expression Recognition, FER), der Detektion von DeepFakes (DeepFake Detection, DFD) und der Lippen-Synchronisation (Lip Synchronization, LS). Unser vorgeschlagenes Framework, MARLIN genannt, ist ein maskierter Autoencoder für Gesichtsvideos, der hoch robuste und generische Gesichtsembeddings aus reichlich vorhandenen, nicht annotierten Gesichtsvideos im Web lernt. Als herausfordernde Nebenaufgabe rekonstruiert MARLIN die räumlich-zeitlichen Details des Gesichts aus dicht maskierten Gesichtsbereichen, die hauptsächlich Augen, Nase, Mund, Lippen und Haut umfassen, um lokale und globale Aspekte zu erfassen, die wiederum bei der Kodierung generischer und übertragbarer Merkmale helfen. Durch eine Vielzahl von Experimenten an verschiedenen nachgelagerten Aufgaben zeigen wir, dass MARLIN ein ausgezeichneter Gesichtsvideo-Encoder sowie Feature-Extractor ist und sich konsistent gut bei einer Vielzahl von nachgelagerten Aufgaben bewährt. Dies beinhaltet Verbesserungen gegenüber den überwachten Benchmarks bei FAR (1,13 % Gewinn), FER (2,64 % Gewinn gegenüber dem unüberwachten Benchmark), DFD (1,86 % Gewinn gegenüber dem unüberwachten Benchmark) und LS (29,36 % Gewinn für den Frechet-Inception-Distanz-Wert). Unsere Code- und Modelldateien sind unter https://github.com/ControlNet/MARLIN verfügbar.