2달 전
MCBLT: 장기 영상에서 다중 카메라 다중 객체 3D 추적
Wang, Yizhou ; Meinhardt, Tim ; Cetintas, Orcun ; Yang, Cheng-Yen ; Pusegaonkar, Sameer Satish ; Missaoui, Benjamin ; Biswas, Sujit ; Tang, Zheng ; Leal-Taixé, Laura

초록
다중 시점 카메라로부터의 객체 인식은 특히 창고, 소매점, 병원 등의 실내 환경에서 지능형 시스템에 있어 매우 중요합니다. 전통적인 다중 대상 다중 카메라(MTMC) 검출 및 추적 방법들은 주로 2D 객체 검출, 단일 시점 다중 객체 추적(MOT), 그리고 시점 간 재식별(ReID) 기술에 의존하며, 다중 시점 이미지 집계를 통해 중요한 3D 정보를 적절히 처리하지 못합니다. 본 논문에서는 먼저 필요한 카메라 캘리브레이션 매개변수와 함께 다중 시점 이미지를 집계하여 조감도(BEV)에서 3D 객체 검출을 수행하는 MCBLT라는 3D 객체 검출 및 추적 프레임워크를 제안합니다. 그 다음으로, 계층적 그래프 신경망(GNNs)을 도입하여 BEV에서 이러한 3D 검출들을 추적하여 MTMC 추적 결과를 얻습니다. 기존 방법들과 달리 MCBLT는 다양한 장면과 다양한 카메라 설정에서 뛰어난 일반화 능력을 보이며, 장기적인 연관성 처리 능력이 탁월합니다. 그 결과, 제안된 MCBLT는 AICity'24 데이터셋에서 HOTA $81.22$, WildTrack 데이터셋에서 IDF1 $95.6$의 새로운 최신 성능을 달성하였습니다.