2달 전
MOTR: 트랜스포머를 이용한 엔드투엔드 다중 객체 추적
Zeng, Fangao ; Dong, Bin ; Zhang, Yuang ; Wang, Tiancai ; Zhang, Xiangyu ; Wei, Yichen

초록
시간적 객체 모델링은 다중 객체 추적(MOT)에서 핵심적인 과제입니다. 기존 방법들은 움직임 기반과 외관 기반의 유사성 휴리스틱을 통해 검출을 연관시키는 방식으로 추적합니다. 연관화의 후처리 특성은 비디오 시퀀스에서 시간적 변화를 단일 구조로 활용하는 것을 방해합니다. 본 논문에서는 DETR을 확장하고 전체 비디오에서 추적 인스턴스를 모델링하기 위한 트랙 쿼리를 도입한 MOTR을 제안합니다. 트랙 쿼리는 프레임별로 전달되고 업데이트되어 시간에 따른 반복 예측을 수행합니다. 또한 트랙 쿼리와 신생 객체 쿼리를 훈련시키기 위해 트래클릿 인식 라벨 할당 방법을 제안합니다. 우리는 시간적 관계 모델링을 강화하기 위해 시간 집계 네트워크와 집합 평균 손실 함수를 추가로 제안합니다. DanceTrack 데이터셋에서의 실험 결과, MOTR은 HOTA 메트릭에서 최신 방법인 ByteTrack보다 6.5% 우수한 성능을 보였습니다. MOT17 데이터셋에서는 MOTR이 동시기에 발표된 TrackFormer와 TransTrack보다 연관성 성능에서 우월함을 입증하였습니다. MOTR은 미래의 시간적 모델링 및 Transformer 기반 추적기 연구에 더 강력한 베이스라인으로 활용될 수 있습니다. 코드는 https://github.com/megvii-research/MOTR 에서 제공됩니다.