
要約
画像および動画におけるランドマークの局所化は、様々な方法で解決されてきた古典的な問題です。現在、深層ネットワークが機械学習全般にわたって主流となっているため、顔のランドマーク検出技術をより困難なデータに対応させるために再び関心が高まっています。これまでの多くの取り組みでは、L1またはL2ノルムに基づくネットワーク目標が使用されてきましたが、これらにはいくつかの欠点があります。まず、ランドマークの位置は生成されたヒートマップ(つまり、信頼度マップ)から決定されますが、予測されたランドマーク位置(つまり、平均値)に対するペナルティが散布度を考慮せずに課されます:高い散らばりは低い信頼度を示し、逆もまた然りです。これに対して、私たちは低信頼度に対するペナルティを課すLaplaceKLオブジェクティブを導入します。もう一つの問題はラベル付きデータへの依存であり、これらのデータは取得コストが高いだけでなく誤りに脆弱です。両方の問題に対処するため、私たちはラベルなしデータを活用してモデル性能を向上させる敵対的訓練フレームワークを提案します。当社の手法は300Wベンチマークにおいて最先端の結果を達成しており、Annotated Facial Landmarks in the Wild (AFLW) データセットでは最良の次点となっています。さらに、当社のモデルはサイズが小さくても堅牢性が高く、チャンネル数が1/8(つまり0.0398MB)であるにもかかわらずCPU上でリアルタイム処理において最先端と同等の性能を発揮します。したがって、当社の手法は実際のアプリケーションにとって非常に実用的な価値があることを示しています。