
要約
群衆画像における自動人数計測は困難な課題である。この問題の主な難しさは、群衆の中で人々が現れる方法の多様性に起因する。実際、群衆を区別するために利用可能な特徴量は、群衆密度によって大きく左右され、非常に密集したシーンでは人々は単なる塊としてしか認識されない。私たちはこの問題に対処するために、段階的に容量を増やして群衆シーンで見られる広範な変動性を説明できるように設計された成長型CNN(Convolutional Neural Network)を使用している。私たちのモデルは、すべての種類の群衆画像に対して同等に訓練されるベースCNN密度回帰器から始まる。巨大な多様性に対応するため、ベースCNNの完全なコピーである2つの子回帰器を作成する。差分学習手順によりデータセットが2つのクラスタに分割され、それぞれの専門分野で子ネットワークが微調整される。これにより、専門分野を形成するための人為的な基準なしで、子回帰器が特定のタイプの群衆に関する専門家となる。さらに、子ネットワークは再帰的に分割され、各分割ごとに2人の専門家が生成される。このような階層的な学習によりCNNツリーが形成され、子回帰器は親よりもより細かい専門家となる。最終的な専門家である葉ノードを取り出し、テスト画像パッチに対する正しい専門分野を予測する分類器ネットワークを訓練する。提案されたモデルは主要な群衆データセットにおいて高い数え精度を達成しており、さらに私たちの手法によって自動的に抽出された専門分野の特性について分析を行っている。