Command Palette
Search for a command to run...
MARLIN: 顔動画表現学習のためのマスク付きオートエンコーダー
MARLIN: 顔動画表現学習のためのマスク付きオートエンコーダー
Zhixi Cai Shreya Ghosh Kalin Stefanov Abhinav Dhall Jianfei Cai Hamid Rezatofighi Reza Haffari Munawar Hayat
概要
本論文では、ビデオから普遍的な顔表現を学習し、 Facial Attribute Recognition (FAR)、Facial Expression Recognition (FER)、DeepFake Detection (DFD)、および Lip Synchronization (LS) などの多様な顔分析タスクに転移可能な自己監督アプローチを提案します。我々が提案するフレームワーク「MARLIN」は、豊富に存在する非注釈のウェブクロール顔ビデオから非常に堅牢で汎用的な顔埋め込みを学習するマスク付き自動エンコーダです。挑戦的な補助タスクとして、MARLIN は主に目、鼻、口、唇、肌などを含む密集したマスク領域から顔の時空間詳細を再構成し、局所的および全局的な側面を捉えることで汎用的かつ転移可能な特徴量の符号化を支援します。多様な下流タスクに対する様々な実験を通じて、MARLIN が優れた顔ビデオエンコーダおよび特徴抽出器であることを示しています。FAR(監督基準モデルに対して 1.13% の改善)、FER(非監督基準モデルに対して 2.64% の改善)、DFD(非監督基準モデルに対して 1.86% の改善)、LS(Frechet Inception Distance において 29.36% の改善)など、多様な下流タスクにおいて一貫して良好なパフォーマンスを発揮することを確認しました。また、データ量が少ない状況でもその性能が示されています。我々のコードとモデルは https://github.com/ControlNet/MARLIN で公開されています。