
顔検出は長年にわたって広く研究されており、未解決の課題の一つは非制御環境下で小さな、ぼけた、または部分的に隠れた顔を検出することです。本論文では、この難しい顔検出問題に対処するための新しいコンテキスト支援型シングルショット顔検出器である \emph{PyramidBox} を提案します。コンテキストの重要性に注目し、以下の三つの観点からコンテキスト情報の利用を改善しました。第一に、半教師あり手法によって高レベルのコンテキスト特徴学習を監督する新しいコンテキストアンカー(PyramidAnchors)を設計しました。第二に、適切な高レベルコンテキスト意味特徴と低レベル顔特徴を組み合わせるための Low-level Feature Pyramid Network を提案しました。これにより、PyramidBox は単一の推論ですべてのスケールの顔を予測することが可能になります。第三に、予測ネットワークの容量を増加させ最終的な精度を向上させるために、コンテキスト感応型構造を導入しました。さらに、異なるスケール間での訓練サンプル拡大のために Data-anchor-sampling 法を使用し、小さな顔に対する訓練データの多様性を向上させました。コンテキストの価値を利用することで、PyramidBox は一般的な二つの顔検出ベンチマークである FDDB および WIDER FACE において最先端技術と比較して優れた性能を達成しています。私たちのコードは PaddlePaddle のリポジトリで公開されています: \href{https://github.com/PaddlePaddle/models/tree/develop/fluid/face_detection}{\url{https://github.com/PaddlePaddle/models/tree/develop/fluid/face_detection}}。