
要約
複数のRGBカメラを用いた3D空間における群衆追跡は、極めて困難な課題である。従来のマルチカメラ追跡アルゴリズムの多くはオフライン処理を想定しており、計算量が非常に高いため、リアルタイム性に欠ける。特に、リアルタイムで高精度なマルチカメラ3D追跡を実現する手法は、依然として未解決の問題である。本研究では、信頼性の高いリアルタイムマルチカメラ人間追跡を実現する、エンドツーエンド型の新しい追跡パイプライン「Deep Multi-Camera Tracking(DMCT)」を提案する。本DMCTは以下の4つのモジュールから構成される:1)高速かつ新規の視点認識型Deep GroundPoint Network、2)床面占有ヒートマップ推定のための融合処理、3)人物検出に特化した新規Deep Glimpse Network、および4)高速かつ高精度なオンライン追跡器。本設計により、深層ニューラルネットワークの潜在能力を最大限に活用し、各カラー画像における人物の「床面点(ground point)」を効率的かつロバストに推定することが可能となる。さらに、融合処理、Glimpseネットワーク、および追跡器は、複数視点からの情報を統合し、複数の動画フレームを用いて人物候補を検出し、統合されたヒートマップ上で人物を追跡する。本システムは、リアルタイム性能を維持しつつ、最先端の追跡性能を達成した。本研究では、難易度の高いWILDTRACKデータセットにおける評価に加え、異なる環境およびカメラ設定から高品質なラベルを備えた2つの新たな追跡データセットも収集した。実験結果により、本研究で提案するリアルタイムパイプラインが、従来手法を上回る優れた性能を発揮することが確認された。