HyperAIHyperAI

Command Palette

Search for a command to run...

MARLIN: Masked Autoencoder für die Darstellungslernung von Gesichtsvideos

Zhixi Cai Shreya Ghosh Kalin Stefanov Abhinav Dhall Jianfei Cai Hamid Rezatofighi Reza Haffari Munawar Hayat

Zusammenfassung

Dieses Papier schlägt einen selbstüberwachten Ansatz vor, um universelle Gesichtsdarstellungen aus Videos zu lernen, die sich auf eine Vielzahl von Gesichtsanalysetaichen übertragen lassen, wie zum Beispiel der Erkennung von Gesichtseigenschaften (Facial Attribute Recognition, FAR), der Erkennung von Gesichtsausdrücken (Facial Expression Recognition, FER), der Detektion von DeepFakes (DeepFake Detection, DFD) und der Lippen-Synchronisation (Lip Synchronization, LS). Unser vorgeschlagenes Framework, MARLIN genannt, ist ein maskierter Autoencoder für Gesichtsvideos, der hoch robuste und generische Gesichtsembeddings aus reichlich vorhandenen, nicht annotierten Gesichtsvideos im Web lernt. Als herausfordernde Nebenaufgabe rekonstruiert MARLIN die räumlich-zeitlichen Details des Gesichts aus dicht maskierten Gesichtsbereichen, die hauptsächlich Augen, Nase, Mund, Lippen und Haut umfassen, um lokale und globale Aspekte zu erfassen, die wiederum bei der Kodierung generischer und übertragbarer Merkmale helfen. Durch eine Vielzahl von Experimenten an verschiedenen nachgelagerten Aufgaben zeigen wir, dass MARLIN ein ausgezeichneter Gesichtsvideo-Encoder sowie Feature-Extractor ist und sich konsistent gut bei einer Vielzahl von nachgelagerten Aufgaben bewährt. Dies beinhaltet Verbesserungen gegenüber den überwachten Benchmarks bei FAR (1,13 % Gewinn), FER (2,64 % Gewinn gegenüber dem unüberwachten Benchmark), DFD (1,86 % Gewinn gegenüber dem unüberwachten Benchmark) und LS (29,36 % Gewinn für den Frechet-Inception-Distanz-Wert). Unsere Code- und Modelldateien sind unter https://github.com/ControlNet/MARLIN verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
MARLIN: Masked Autoencoder für die Darstellungslernung von Gesichtsvideos | Paper | HyperAI