Command Palette
Search for a command to run...
空間認識の学習による集団人数推定の改善
空間認識の学習による集団人数推定の改善
Zhi-Qi Cheng Jun-Xiu Li Qi Dai Xiao Wu Alexander Hauptmann
概要
クラウドカウンティングの目的は、歩行者の頭部の中心位置を示すアノテーションを活用して、画像内の人数を推定することである。ディープ畳み込みニューラルネットワーク(CNN)の普及により、この分野では顕著な進展が達成されている。既存の手法は広くユークリッド距離(すなわちL2損失)をモデルの最適化に用いているが、これには以下の二つの主要な課題がある。(1)密度マップにおける高周波成分の保持が困難なため、空間的認識(すなわち頭部の位置情報)の学習が難しくなること、(2)集団内のノイズ(例えばゼロ平均ノイズ、頭部サイズの変化、被覆現象など)に対して極めて敏感である点である。これまでに、予測密度マップと真値との差分が最大となる長方形サブ領域を見つけることで上記の問題に対処する「Maximum Excess over SubArrays(MESA)損失」が提案されているが、この損失関数は勾配降下法によって最適化できないため、深層学習フレームワークに容易に統合することが困難である。本論文では、空間的文脈を効果的に取り入れるための新しいアーキテクチャとして、SPatial Awareness Network(SPANet)を提案する。この目的を達成するために、真値と著しく乖離するピクセルレベルのサブ領域を特定する「Maximum Excess over Pixels(MEP)損失」を導入した。そのため、マルチブランチアーキテクチャを用いた弱教師付き学習スキームを設計し、このような乖離領域を生成する。提案するフレームワークは既存の深層クラウドカウンティング手法と容易に統合可能であり、エンドツーエンドで学習可能な構造となっている。4つの難易度の高いベンチマークにおける広範な実験結果から、本手法がベースライン手法の性能を著しく向上させることを示した。特に、すべてのベンチマークデータセットにおいて、最先端の手法を上回る優れた性能を達成した。