13日前
群衆におけるドローンとの統合:検出・追跡・カウントのベンチマーク
Longyin Wen, Dawei Du, Pengfei Zhu, Qinghua Hu, Qilong Wang, Liefeng Bo, Siwei Lyu

要約
ドローンが撮影した動画における物体検出、追跡、人数カウントアルゴリズムの発展を促進するため、我々は新たなドローン撮影大規模データセット「DroneCrowd」を構築した。このデータセットは、多様なシナリオにわたる112本の動画クリップから構成され、合計33,600フレームのHD映像を含む。特に、480万個の頭部を含む20,800人の人物軌跡をアノテーションするとともに、複数の動画レベルの属性も付与している。一方で、密集した群衆において物体検出、追跡、人数カウントを統合的に処理する強力なベースラインとして、空間時間的隣接情報に配慮したネットワーク(Space-Time Neighbor-Aware Network, STNNet)を設計した。STNNetは、特徴抽出モジュール、密度マップ推定ヘッド、および局所化と関連付けサブネットから構成されている。隣接する物体間の文脈情報を有効活用するため、時間領域における近接物体間の相対位置の一貫性を強制する「隣接文脈損失(neighboring context loss)」を提案し、関連付けサブネットの学習をガイドしている。本研究で構築したDroneCrowdデータセット上で実施した広範な実験により、STNNetが既存の最先端手法と比較しても優れた性能を示すことが確認された。