
要約
本論文では、任意の混雑度および任意の視点を持つ画像から正確に群衆人数を推定できる手法の開発を目的としている。そのため、画像をその群衆密度マップに変換するシンプルだが効果的なマルチカラム畳み込みニューラルネットワーク(MCNN)アーキテクチャを提案した。提案するMCNNは、入力画像のサイズや解像度が任意でも対応可能である。各カラムに配置されたCNNは、受容 field(受容野)の異なるフィルタを用いることで、視点効果や画像解像度の変化に伴う人物/頭部サイズの変動に対して適応的な特徴を学習できる。さらに、入力画像の視点マップを事前に知らなくてもよい幾何学的適応型カーネルを用いることで、真の密度マップを正確に計算することが可能となる。既存の群衆計数データセットは、本研究で検討するすべての課題的状況を十分にカバーしていないため、本研究では1,198枚の画像と約33万頭の頭部をアノテーションした大規模な新規データセットを収集・ラベル付けした。この挑戦的である新データセットおよび既存のすべてのデータセットを用いて、提案手法の有効性を広範に検証した。特に、提案するシンプルなMCNNモデルを用いることで、既存のすべての手法を上回る性能を達成した。また、実験の結果、本モデルは一度あるデータセットで学習を終えれば、新たなデータセットへ容易に転移可能であることが示された。