2ヶ月前

コンテクスト・ピラミッドCNNを用いた高品質な群衆密度マップの生成

Vishwanath A. Sindagi; Vishal M. Patel
コンテクスト・ピラミッドCNNを用いた高品質な群衆密度マップの生成
要約

我々は、群衆画像のグローバルおよびローカルなコンテクスト情報を明示的に組み込むことで、高品質な群衆密度と数の推定を生成する新しい手法であるコンテクスチュアル・ピラミッドCNN(CP-CNN)を提案します。提案されたCP-CNNは、グローバルコンテクスト推定器(GCE)、ローカルコンテクスト推定器(LCE)、密度マップ推定器(DME)、およびフュージョンCNN(F-CNN)の4つのモジュールで構成されています。GCEはVGG-16を基にしたCNNであり、入力画像を異なる密度クラスに分類するために訓練されます。一方、LCEは別のCNNで、入力画像のパッチごとに異なる密度クラスへの分類を行うために訓練されます。DMEはマルチコラムアーキテクチャに基づいたCNNであり、入力画像から高次元特徴マップを生成することを目指しており、GCEとLCEによって推定されたコンテクスト情報とF-CNNを使用して融合されます。高解像度かつ高品質な密度マップを生成するために、F-CNNは一連の畳み込み層と分数ストライド畳み込み層を使用し、敵対的損失とピクセルレベルのユークリッド損失の組み合わせを使用してDMEと共にエンドツーエンドで訓練されます。非常に困難なデータセットでの広範な実験により、提案手法が既存の最先端手法に対して大幅な改善を達成していることが示されました。

コンテクスト・ピラミッドCNNを用いた高品質な群衆密度マップの生成 | 最新論文 | HyperAI超神経