6ヶ月前

概要

顔検出は機械学習における重要な視覚情報解析タスクの一つである。ビッグデータの台頭により、大量の視覚データが蓄積され、その適切かつ高速な解析が求められている。深層学習（Deep Learning）手法は、多様性の高い大量のデータを用いた学習がその有効性を顕著に向上させることから、このタスクに対する強力なアプローチとして注目されているが、しばしば高コストな計算を要し、モデルの複雑さが増す傾向にある。特に、大規模なデータセットにおける視覚コンテンツの分析を目的とする場合、モデルの複雑さはその成功に決定的な影響を与える。本論文では、顔検出を目的として、学習時間およびテスト時間を最小限に抑えることを設計上の重点とした軽量型深層畳み込みニューラルネットワーク（CNN）を提案する。このモデルは、従来の深層畳み込みネットワークと比較して、効果性および効率性の両面で優れた性能を発揮している。モデルの自由パラメータ数は76,375にとどまる一方、他の競合モデルの多くは数百万ものパラメータを有している。本研究では、モデルの効率性を損なわずに軽量な深層ネットワークを学習するため、段階的正例およびハードネガティブサンプルマイニングを用いた新しい学習手法を導入し、学習速度と精度を顕著に向上させることを実証した。さらに、個々の顔部品を検出するための別個の深層ネットワークを訓練し、二つのネットワーク出力の統合モデルを構築・評価した。これらの手法は、重度の隠蔽（occlusion）や制約のない姿勢変化下でも顔を検出可能であり、大規模な現実世界におけるリアルタイム顔検出に求められる多様性と困難性に適応している。

ソースPDF