開集合から閉集合へ:空間分割統治法による物体の数え方

視覚的な物体数推定は、画像や動画から物体の数を予測するタスクであり、本質的にオープンセット問題である。すなわち、理論上は人口の数が$[0,+\infty)$の範囲内で変動する可能性がある。しかし、実際には収集された画像とラベル付けされた数値は限定的であり、観察されるのは小さなクローズドセットに過ぎない。既存の手法は通常、このタスクを回帰モデルとして扱うが、クローズドセットの範囲外にある未見のシーンでは精度が低下する傾向がある。実際には、カウントは分解可能である。密集した領域は常に分割され、サブ領域のカウントが以前に観察されたクローズドセット内になるまで分割を続けることができる。このアイデアに基づいて、我々は単純ながら効果的なアプローチである空間分割征服ネットワーク(Spatial Divide-and-Conquer Network, S-DCNet)を提案する。S-DCNetはクローズドセットからのみ学習するが、S-DCを通じてオープンセットシナリオにも良好に汎化できる。また、S-DCNetは効率的である。サブ領域の畳み込み特徴量を繰り返し計算することを避けるため、S-DCは入力画像ではなく特徴マップ上で実行される。S-DCNetは3つの群衆カウントデータセット(ShanghaiTech, UCF_CC_50, UCF-QNRF)、車両カウントデータセット(TRANCOS)および植物カウントデータセット(MTC)で最先端の性能を達成している。これまでの最良の手法と比較して、ShanghaiTech Part Bでは20.2%、UCF-QNRFでは20.9%、TRANCOSでは22.5%、MTCでは15.1%の相対的な改善をもたらしている。コードは以下のURLで公開されている: https://github.com/xhp-hust-2018-2011/S-DCNet.