
要約
本稿では、正確かつ効率的な混雑人数推定を目的として、新しいエンコーダ-デコーダ型ネットワーク「Scale Aggregation Network (SANet)」を提案する。エンコーダはスケール集約モジュールを用いてマルチスケール特徴を抽出し、デコーダは逆畳み込み(transpose convolution)の組み合わせを用いて高解像度の密度マップを生成する。さらに、既存の多数の研究が各ピクセル間の独立性を仮定するユークリッド損失(Euclidean loss)のみを用いていることに着目し、密度マップにおける局所的相関を無視している点に問題を指摘する。そこで、ユークリッド損失と局所パターン一貫性損失(local pattern consistency loss)を組み合わせた新たな学習損失関数を提案し、実験においてモデルの性能向上を確認した。また、学習の安定化のため正規化層を導入し、統計的シフト問題の影響を低減するため、パッチベースのテストスキームを採用している。提案手法の有効性を検証するため、4つの主要な混雑人数推定データセットにおいて広範な実験を実施した結果、従来の最先端手法と比較して優れた性能を達成しつつ、パラメータ数を大幅に削減した。