17日前

ピクセル・イン・ピクセル・ネット:ワイルドな環境における効率的な顔ランドマーク検出へ

Haibo Jin, Shengcai Liao, Ling Shao
ピクセル・イン・ピクセル・ネット:ワイルドな環境における効率的な顔ランドマーク検出へ
要約

近年、顔面ランドマークの位置推定において優れた性能を発揮するため、ヒートマップ回帰モデルが注目を集めている。しかし、これらのモデルには以下の3つの主要な課題が依然として存在する:(1) 計算コストが高くなる傾向にあること、(2) グローバルな形状に明示的な制約が設けられていないこと、(3) ドメインギャップが一般的に存在すること。これらの課題に対処するために、本研究では顔面ランドマーク検出のための新しいモデル「Pixel-in-Pixel Net(PIPNet)」を提案する。本モデルは、ヒートマップ回帰に基づく新たな検出ヘッドを搭載しており、低解像度の特徴マップ上でスコアとオフセットの予測を同時に行う。このアプローチにより、繰り返しのアップサンプリング層の必要性が排除され、モデルの精度を損なうことなく推論時間を大幅に削減することが可能となる。さらに、隣接するランドマークからの予測を統合することで局所的な制約を強制する、シンプルかつ効果的な「隣接回帰モジュール」を提案し、新しい検出ヘッドのロバスト性を向上させた。PIPNetのドメイン間一般化性能をさらに高めるために、カリキュラム学習を用いた自己学習(self-training)戦略を導入した。この学習戦略は、容易なタスクから始め、徐々に難易度を高めることで、異なるドメインのラベルなしデータからより信頼性の高い疑似ラベルを抽出できる。広範な実験により、PIPNetの優位性が実証された。特に、6つの代表的なベンチマークのうち3つにおいて、教師あり設定下で最先端(SOTA)の性能を達成した。また、2つのドメイン間テストセットにおいても、ベースライン手法と比較して一貫して性能向上が見られた。特に注目すべきは、PIPNetの軽量版がCPU上で35.7 FPS、GPU上で200 FPSで動作可能でありながら、最先端手法と比較して競争力ある精度を維持できている点である。PIPNetの実装コードは、https://github.com/jhb86253817/PIPNet にて公開されている。

ピクセル・イン・ピクセル・ネット:ワイルドな環境における効率的な顔ランドマーク検出へ | 最新論文 | HyperAI超神経