18日前

ワイルドな環境下における2D/3D顔形状回帰のための敵対学習によるセマンティックボリューム

{Zhenan Sun, Qi Li, Hongwen Zhang}
ワイルドな環境下における2D/3D顔形状回帰のための敵対学習によるセマンティックボリューム
要約

回帰ベースの手法は、深層ニューラルネットワークと実世界に存在する大量のアノテーション付きデータセットを活用することで、2次元顔ランドマークの局所化において革命的な進展をもたらした。しかし、3次元ランドマークの局所化においては、アノテーション付きデータセットの不足および3次元視点下におけるランドマークの曖昧さという課題が残っており、依然として困難な問題である。本論文では、回帰ベースの手法を再検討し、実世界のシナリオにおける2次元および3次元顔ランドマークの局所化を実現するための、敵対的ボクセルおよび座標回帰フレームワークを提案する。まず、各ボクセルが3次元ランドマークである確率を符号化するための意味的ボリューム表現を導入する。次に、提案するボリューム表現と座標ベクトルを同時に回帰するエンドツーエンドのパイプラインを設計する。このパイプラインは、予測のロバスト性と精度を向上させるだけでなく、2次元および3次元ランドマークの局所化を統一的に扱えるようにし、2次元および3次元のデータセットを同時に利用可能にする。さらに、弱教師あり設定下で、合成データセットから学習した3次元構造を実世界データセットに抽出するための敵対的学習戦略を採用する。この際、補助的な回帰型ディスクリミネータを提案し、ネットワークが合成画像および実世界画像の両方に対して妥当な予測を生成するよう促進する。本手法の有効性は、2次元および3次元顔ランドマーク局所化の両タスクにおいて、標準ベンチマークデータセット3DFAWおよびAFLW2000-3Dを用いて検証された。実験結果から、本手法が従来の最先端手法に対して顕著な性能向上を達成していることが示された。