2ヶ月前
カスケード変換器を用いた高精度な顔ランドマーク検出へ向けた研究
Li, Hui ; Guo, Zidong ; Rhee, Seon-Min ; Han, Seungju ; Han, Jae-Joon

要約
顔のランドマークの正確な検出は、人間の顔に関連する多くのタスクにおいて重要な前提条件です。本論文では、カスケード変換器を基にした高精度な顔ランドマーク検出器を提案します。顔ランドマーク検出を座標回帰タスクとして定式化し、モデルをエンドツーエンドで学習できるようにしています。変換器内の自己注意機構により、当モデルはランドマーク間の構造的な関係性を内在的に活用でき、大姿勢や被覆などの困難な条件下でもランドマーク検出が向上します。カスケードリファインメント中には、デフォーマブル注意機構に基づいて、目標となるランドマーク周辺の最も関連性の高い画像特徴量を抽出して座標予測を行うため、より正確なアライメントが可能となります。さらに、当研究では新たなデコーダーを提案しており、これにより画像特徴量とランドマーク位置を同時にリファインできます。パラメータ数のわずかな増加により、検出性能が更に向上します。当モデルはいくつかの標準的な顔ランドマーク検出ベンチマークで最新の最先端性能を達成し、クロスデータセット評価においても良好な汎化能力を示しています。