
要約
物体認識において大きな進歩が見られましたが、未解決の課題の一つは小さな物体の検出です。本研究では、小さな顔を検出する文脈において、スケール不変性、画像解像度、およびコンテクスト推論の三つの側面を探ります。多くの認識手法がスケール不変性を目指していますが、3ピクセル高的な顔を認識するための手がかりは、300ピクセル高的な顔を認識するためのものとは根本的に異なります。そこで我々は異なるアプローチを取り、異なるスケール用に個別の検出器を訓練します。効率性を維持するために、検出器は単一(深層)特徴階層の複数レイヤーから抽出された特徴を利用し、マルチタスクで訓練されます。大物体用の検出器を訓練することは比較的容易ですが、小物体用の検出器を訓練することが重要な課題となっています。我々はコンテクストが極めて重要であることを示し、対象となる物体を超える大規模な受容野(テンプレートの99%が対象物体外に広がる)を利用するテンプレートを定義しました。最後に、事前学習済みの深層ネットワークにおけるスケールの役割を探り、限られたスケール向けに調整されたネットワークを非常に広い範囲にまで拡張する方法を提供します。我々は大量ベンチマーク化された顔データセット(FDDBおよびWIDER FACE)で最先端の結果を示します。特にWIDER FACEにおいては、先行研究と比較して誤差が2倍に減少しており(我々のモデルはAPが82%である一方で、先行研究では29-64%となっています)。