7ヶ月前

概要

顔のランドマーク検出、または顔合わせは、広範囲にわたって研究されてきた基本的な課題です。本論文では、顔のランドマーク検出における新しい視点を調査し、その視点がさらなる著しい改善につながることを示します。任意の顔画像は、照明、テクスチャ、画像環境を捉えるスタイル空間と、スタイル不変の構造空間に分解できるという前提のもと、我々の主要なアイデアは各個人の分離されたスタイルと形状空間を利用してスタイル翻訳を通じて既存の構造を拡張することです。これらの拡張された合成サンプルを使用することで、我々の半教師付きモデルは驚くほど完全教師付きモデルを大幅に上回ることが確認されました。多数の実験により、我々のアイデアがWFLW, 300W, COFW, AFLWデータセットにおいて最先端の結果を達成し、その有効性が検証されています。提案する構造は汎用性が高く、任意の顔合わせフレームワークに組み込むことが可能です。コードは公開されており、https://github.com/thesouthfrog/stylealign から入手できます。注：「style translation」（スタイル翻訳）という表現は一般的ではありませんが、「スタイル転送」や「スタイル変換」といったより一般的な表現を使用すると元の意味が損なわれる可能性があるため、「スタイル翻訳」と訳しました。必要に応じて、「スタイル転送」や「スタイル変換」などの他の表現も考慮することができます。

ソースPDF