概要

野生環境下での堅牢な顔検出は、様々な顔関連の課題を支援するための究極的な要素の一つであり、制約のない顔認識、周囲眼領域認識（periocular recognition）、顔ランドマーク検出と姿勢推定、表情認識、3D顔モデル構築などがあります。顔検出問題は数十年にわたり様々な商用応用のために精力的に研究されてきましたが、重い顔部分の隠蔽（occlusions）、極めて低い解像度、強い照明条件、異常な姿勢変動、画像やビデオの圧縮アーティファクトなどの多くの課題により、現実世界のいくつかのシナリオでは依然として問題が発生しています。本論文では、これらの問題を堅牢に解決するための新しい顔検出手法であるコンテキストマルチスケール領域ベースの畳み込みニューラルネットワーク（Contextual Multi-Scale Region-based Convolutional Neural Network: CMS-RCNN）を提案します。提案手法は領域ベースのCNNと同様に、領域提案部と興味領域（Region of Interest: RoI）検出部から構成されています。しかし、提案手法には以下の2つの主要な貢献点があり、これらが現行最先端の顔検出性能を達成するために重要な役割を果たしています。第一に、小さな顔領域に対処するために、領域提案とRoI検出において多スケール情報がグループ化されています。第二に、人間視覚システムからの直感に基づいて設計されたネットワーク内での明示的な身体コンテキスト推論が可能となっています。提案手法は最近公開された2つの挑戦的な顔検出データセットで評価されました。すなわち、高次元変動を含むWIDER FACEデータセットおよびFace Detection Data Set and Benchmark (FDDB)です。実験結果は、WIDER FACEデータセット上で訓練された提案手法が同データセットで強力な基準モデルに対して大幅に優れた性能を示し、またFDDBにおいても最新の最先端顔検出方法に対して一貫して競争力のある結果を達成していることを示しています。

ソースPDF