
要約
近年、顔のランドマーク検出に関する研究において顕著な進展が見られている。しかし、実用的な応用を想定したモデルに関する包括的な議論はまだ少ない。既存の多くの研究は、一時的にいくつかの課題に焦点を当てつつ、他の重要な要素を無視しがちである。このギャップを埋めるために、本研究では、精度、ロバスト性、効率性、汎化能力、そしてエンド・トゥ・エンドでの学習可能性を同時に満たす実用的なモデルの構築を目指す。そのために、まず、検出ヘッドとして1層のTransformerデコーダを備えたベースラインモデルを提案する。さらに、より高い精度を達成するため、2つの軽量なモジュール、すなわち動的クエリ初期化(DQInit)とクエリ意識型メモリ(QAMem)を導入する。DQInitは、入力からデコーダのクエリを動的に初期化することで、複数のデコーダ層を備えるモデルと同等の精度を実現可能にする。一方、QAMemは、各クエリに共有ではなく個別にメモリ値を割り当てることで、低解像度の特徴マップ上でのクエリの識別能力を強化する。この機構により、本モデルは高解像度の特徴マップに依存することなく、依然として優れた精度を達成できる。3つの代表的なベンチマークにおける広範な実験と分析を通じて、提案モデルの有効性および実用上の利点が確認された。特に、WFLWでは新たなSOTA(最先端)性能を達成し、300WおよびCOFWでも競争力ある結果を示した。さらに、50FPS以上の実行速度を維持しており、実用性の観点からも優れた性能を発揮している。