16日前

視覚言語的なアプローチによる一般的な顔面部表現学習

Yinglin Zheng, Hao Yang, Ting Zhang, Jianmin Bao, Dongdong Chen, Yangyu Huang, Lu Yuan, Dong Chen, Ming Zeng, Fang Wen
視覚言語的なアプローチによる一般的な顔面部表現学習
要約

顔分析全般のタスクを向上させるための普遍的な顔表現を学習する方法とは何か?本論文はこの目標に向けて一歩前進するものである。本研究では、事前学習モデルが顔分析タスクにおける転移性能を検討し、視覚言語的なアプローチにより汎用的な顔表現学習を実現するフレームワーク「FaRL(Facial Representation Learning)」を提案する。本フレームワークは、画像とテキストのペアから高次元の意味情報を学習するための対比学習損失(contrastive loss)を用いる一方で、顔表現のさらなる強化を図るため、マスク画像モデリング(masked image modeling)を導入し、低次元の情報も同時に学習するアプローチを採用している。我々は、大量の顔画像とテキストペアを含むデータセット「LAION-FACE」を用いて事前学習を行い、複数の下流タスクにおける表現能力を評価した。その結果、従来の事前学習モデルと比較して、FaRLはより優れた転移性能を達成することが示された。また、データ量が限られた環境(低データ状態)でもその優位性が確認された。特に重要なのは、顔解析タスクである顔パース(face parsing)や顔アライメント(face alignment)において、FaRLが既存の最先端手法を上回ることを実証した点である。

視覚言語的なアプローチによる一般的な顔面部表現学習 | 最新論文 | HyperAI超神経