
要約
混雑シーン認識のためのネットワークとして、データ駆動型かつ深層学習に基づく方法であるCSRNetを提案します。この方法は、高密度なシーンを理解し、正確な人数推定を行うとともに、高品質な密度マップを生成することができます。提案するCSRNetは、主に2つの構成要素から成り立っています。前端には2次元特徴量抽出のために畳み込みニューラルネットワーク(CNN)を使用し、後端には拡張畳み込みニューラルネットワーク(dilated CNN)を使用しています。後端では、拡張カーネルが使用されており、これにより受容野が大きく広がり、プーリング操作を置き換えることができます。CSRNetは純粋な畳み込み構造を持つため、学習が容易です。我々はCSRNetを4つのデータセット(ShanghaiTechデータセット、UCF_CC_50データセット、WorldEXPO'10データセット、UCSDデータセット)で評価し、最先端の性能を達成しました。ShanghaiTech Part_Bデータセットにおいては、CSRNetは従来の最先端手法よりも平均絶対誤差(MAE)が47.3%低くなりました。また、他の物体のカウントにも応用範囲を拡大しており、TRANCOSデータセットにおける車両カウントでも評価を行いました。結果は、CSRNetが従来の最先端アプローチよりもMAEが15.4%低いことを示しており、出力品質が大幅に向上していることが確認されました。