LFFD: エッジデバイス用の軽量かつ高速な顔検出器

顔検出は、さまざまなアプリケーションの基盤技術として、メモリ容量が限られており、計算能力が低いエッジデバイスに常に展開されています。本論文では、エッジデバイス向けの軽量かつ高速な顔検出器(Light and Fast Face Detector: LFFD)を紹介します。提案された手法はアンカーなしで、一段階検出に属しています。具体的には、顔検出の背景において受容野(Receptive Field: RF)と効果的な受容野(Effective Receptive Field: ERF)の重要性を見直しました。実質的に、特定の層のニューロンのRFは入力画像内で規則的に分布しており、これらのRFは自然な「アンカー」です。RF「アンカー」と適切なRFストライドを組み合わせることで、提案手法は理論上100%カバレッジで広範囲の連続的な顔サイズを検出できます。ERFと顔サイズとの関係についての洞察的な理解が、一段階検出用の効率的なバックボーンを動機付けました。このバックボーンは8つの検出ブランチと共通レイヤーによって特徴付けられ、効率的な計算を実現しています。WIDER FACEおよびFDDBという人気のあるベンチマークに対して包括的かつ広範な実験を行いました。また、アプリケーション指向シナリオ向けの新しい評価スキーマを提案しました。新しいスキーマに基づくと、提案手法は優れた精度(WIDER FACE Val/Test -- 易しい: 0.910/0.896, 中程度: 0.881/0.865, 難しい: 0.780/0.770; FDDB -- 非連続的: 0.973, 連続的: 0.724)を達成できます。複数のハードウェアプラットフォームを使用して推論効率を評価しました。提案手法は9 MBのモデルサイズで高速な推論速度(NVIDIA TITAN Xp: 640x480解像度で131.45 FPS; NVIDIA TX2: 160x120解像度で136.99 FPS; Raspberry Pi 3 Model B+: 160x120解像度で8.44 FPS)を得ることができます。