
要約
最新の方法では、混雑したシーンにおける人数カウントに深層ネットワークを用いて群衆密度を推定することが行われています。これらの方法は通常、画像全体または大きな画像領域に対して同じフィルターを使用し、その後で透視効果による歪みを補正するために局所スケールを推定します。これは一般的に、事前に定義された画像領域に対して限られた選択肢の中から最適なカーネルサイズを選択する補助分類器を訓練することで達成されます。このため、これらの方法はエンドツーエンドで学習可能ではなく、利用できるコンテキストの範囲が制限されています。本論文では、複数の受容野サイズを使用して得られる特徴量を組み合わせ、各画像位置でのそれぞれの特徴量の重要性を学習するエンドツーエンドで学習可能な深層アーキテクチャを提案します。つまり、当手法は群衆密度を正確に予測するために必要なコンテキスト情報のスケールを適応的に符号化します。これにより、特に透視効果が強い場合においても、最新の群衆カウント手法よりも優れた性能を発揮するアルゴリズムが得られます。