
要約
最先端の混雑人数推定モデルは、エンコーダー・デコーダー構造を採用している。まず、画像はエンコーダーによって処理され、特徴量が抽出される。その後、視点歪みを補正するため、最高レベルの特徴マップを追加の構成要素に供給し、マルチスケール特徴量を抽出する。これらの特徴量がデコーダーに入力され、混雑密度を生成する。しかし、従来の手法では、エンコーディングの初期段階で抽出された特徴量が十分に活用されておらず、マルチスケールモジュールは限定的な受容field(受容野)範囲しか捉えられず、計算コストが著しく高いという問題がある。本論文では、追加の特徴抽出モジュールに依存せず、エンコーディング段階で得られた多数の特徴量を適応的に融合する新しい混雑人数推定アーキテクチャ(FusionCount)を提案する。これにより、より広範な受容野サイズをカバーしつつ、計算コストを低減することが可能となる。また、デコーディング段階で顕著性情報を効果的に抽出できる新たなチャネル削減ブロックを導入し、モデル性能のさらなる向上を実現した。2つのベンチマークデータベースにおける実験結果から、本モデルが計算複雑性を低減しつつ、最先端の性能を達成していることが確認された。