2ヶ月前

MCBLT: 長時間ビデオにおける複数カメラ複数物体3D追跡

Wang, Yizhou ; Meinhardt, Tim ; Cetintas, Orcun ; Yang, Cheng-Yen ; Pusegaonkar, Sameer Satish ; Missaoui, Benjamin ; Biswas, Sujit ; Tang, Zheng ; Leal-Taixé, Laura
MCBLT: 長時間ビデオにおける複数カメラ複数物体3D追跡
要約

多視点カメラからの物体認識は、倉庫、小売店、病院などの屋内環境における知能システムにとって重要な役割を果たしています。従来の多目標多視点カメラ(MTMC)検出および追跡手法は、2D物体検出、単一視点多物体追跡(MOT)、および視点間再識別(ReID)技術に依存しており、多視点画像の集約による重要な3D情報を適切に処理していません。本論文では、鳥瞰図(BEV)で3D物体検出を行うための多視点画像と必要最低限のカメラキャリブレーションパラメータを集約する3D物体検出および追跡フレームワークであるMCBLTを提案します。次に、階層的なグラフニューラルネットワーク(GNNs)を導入し、BEVでのこれらの3D検出結果を追跡することでMTMC追跡結果を得ます。既存の手法とは異なり、MCBLTは異なるシーンや様々なカメラ設定に対して優れた汎化能力を持ち、長期的な関連付け処理にも卓越した能力があります。その結果、提案したMCBLTはAICity'24データセットで81.22 HOTA、WildTrackデータセットで95.6 IDF1という新しい最先端の性能を達成しました。

MCBLT: 長時間ビデオにおける複数カメラ複数物体3D追跡 | 最新論文 | HyperAI超神経