
要約
我々は、ラーニング・トゥ・ランク(学習順位付け)フレームワークを用いて、豊富に利用可能な未ラベルの群衆画像を活用する新しい群衆カウント手法を提案します。クロップされた画像のランキングを誘導するために、群衆シーン画像の任意の部分画像が元の画像と同じ人数またはそれ以下の人数を含むという観察結果を利用します。これにより、既存の群衆カウントデータセットのサイズが限られている問題に対処することができます。Googleからキーワード検索と例による検索(query-by-example image retrieval)を使用して2つの群衆シーンデータセットを収集しました。これらの未ラベルデータセットから効率的に学習する方法について、マルチタスクネットワークで画像のランキングと群衆密度マップの推定を同時に実行することによって示しています。最も困難な2つの群衆カウントデータセットでの実験結果は、当手法が最先端の成果を得ていることを示しています。