
要約
最近の顔ランドマーク検出における進歩は、顔形状と姿勢の豊富な変形から判別的特徴を学習することで成功を収めています。しかし、画像スタイルの固有の変動性(グレースケール対カラー画像、明るさ対暗さ、鮮やかさ対淡さなど)は、顔そのものの変動性とは別に、常に軽視されてきました。さまざまなソースからウェブ画像が増加して収集されるにつれて、この問題は避けられなくなりました。本研究では、顔ランドマーク検出のために画像スタイルの大きな固有変動性に対処するためのスタイル集約アプローチを提案します。当手法は生成敵対ネットワークモジュールによって元の顔画像をスタイル集約画像に変換します。提案されたスキームは、環境変化に対してより堅牢な顔画像を維持するためにスタイル集約画像を使用します。その後、元の顔画像とスタイル集約された画像が相互補完的にランドマーク検出器を訓練するために共演します。つまり、各顔に対して当手法は2つの画像(元のスタイルと集約されたスタイル)を入力として取り扱います。実験では、画像スタイルの大きな変動性が顔ランドマーク検出器の性能を低下させることが観察されました。さらに、生成敵対ネットワークモジュールを取り除き、スタイル集約画像を使用しないバリアントとの比較により、当手法が大きな画像スタイル変動性に対する堅牢性を持つことを示しています。ベンチマークデータセットAFLWおよび300-Wでの最新アルゴリズムとの比較においても、当アプローチは優れた性能を発揮することが確認されています。コードはGitHubで公開されています: https://github.com/D-X-Y/SAN