13日前

マルチスケール認識モジュールを備えたエンコーダ-デコーダ型畳み込みニューラルネットワークによる混雑度推定

Pongpisit Thanasutives, Ken-ichi Fukui, Masayuki Numao, Boonserm Kijsirikul

要約

本稿では、正確かつ効率的な群集人数推定を実現するため、二つの改良型ニューラルネットワークを提案する。これらのモデルは、二重パス多スケール融合ネットワーク（SFANet）およびSegNetをベースとしている。SFANetの構造に着想を得て、最初のモデルであるM-SFANetは、アトラス空間ピラミッドプーリング（ASPP）とコンテキスト認識モジュール（CAN）を搭載している。M-SFANetのエンコーダーは、異なるサンプリングレートを持つ並列なアトラス畳み込み層を含むASPPにより強化されており、対象物体の多スケール特徴を抽出するとともに、より広範なコンテキスト情報を組み込むことが可能となる。さらに、入力画像全体におけるスケール変動に対処するために、コンテキスト情報のスケールを適応的に符号化するCANモジュールを導入した。この組み合わせにより、密集した場面と疎らな場面の両方において効果的な人数推定が可能となる。SFANetのデコーダー構造を踏襲しつつ、M-SFANetのデコーダーは密度マップと注目マップを生成するための二重パス構造を採用している。第二のモデルはM-SegNetと呼ばれ、SFANetにおける双線形補間をSegNetで用いられるマックスアンプーリングに置き換えることで構築された。この変更により、高速なモデル実行が可能となりつつ、競争力のある人数推定性能を維持している。高速監視アプリケーションを想定して設計されたM-SegNetは、モデルの複雑さを増さないため、追加の多スケール対応モジュールを設けていない。両モデルともエンコーダ・デコーダ構造を採用しており、エンドツーエンドで訓練可能である。本研究では、群集人数推定のための5つのデータセットおよび1つの車両人数推定データセットを用いて広範な実験を行い、これらの改良が最先端の群集人数推定手法を向上させることを示した。実装コードは以下のURLから入手可能である：https://github.com/Pongpisit-Thanasutives/Variations-of-SFANet-for-Crowd-Counting。