
要約
複数のカメラ視点を組み込むことで、混雑したシーンにおける遮蔽の影響を軽減することができます。マルチビュー・システムでは、遮蔽によって生じる曖昧性に対処する際に2つの重要な質問に答える必要があります。第一に、どのようにして複数の視点からの情報を集約すべきか?第二に、遮蔽によって信頼性が損なわれた2次元および3次元空間情報をどのように集約すべきか?これらの質問に対する解決策として、我々は新しいマルチビュー検出システムMVDet(Multi-View Detection)を提案します。既存の方法では、画像平面上のアンカーボックス特徴量を結合することでマルチビュー集約を行いますが、これによりアンカーボックスの形状やサイズが正確でないために性能が制限される可能性があります。対照的に、我々はアンカーなしアプローチを取り入れて、特徴マップを地上平面(鳥瞰図)に射影することでマルチビュー情報を集約します。残存する空間的な曖昧性を解消するために、地上平面の特徴マップに対して大規模なカーネル畳み込みを適用し、検出ピークから位置を推定します。我々のモデル全体はエンドツーエンドで学習可能であり、標準的なWildtrackデータセットにおいて88.2%のMODA(Mean Overlap of Detected Areas)を達成し、最先端技術よりも14.1%優れています。また、新たに導入された合成データセットMultiviewXを使用してMVDetの詳細な分析も提供しています。このデータセットは遮蔽レベルを制御できるため有用です。コードとMultiviewXデータセットはhttps://github.com/hou-yz/MVDetで公開されています。