
초록
우리는 글로벌 다중 객체 추적을 위한 새로운 트랜스포머 기반 아키텍처를 제안한다. 본 네트워크는 짧은 프레임 시퀀스를 입력으로 받아 모든 객체에 대한 글로벌 트랙을 생성한다. 핵심 구성 요소는 시퀀스 내 모든 프레임의 객체를 대상으로 작동하는 글로벌 추적 트랜스포머이다. 이 트랜스포머는 시퀀스 내 모든 프레임의 객체 특징을 인코딩하고, 트랙 쿼리(trajecory queries)를 사용하여 이를 트랙으로 그룹화한다. 트랙 쿼리는 단일 프레임의 객체 특징에서 유도되며, 자연스럽게 고유한 트랙을 생성한다. 본 글로벌 추적 트랜스포머는 중간 단계의 쌍별 그룹화나 조합적 연관 과정을 필요로 하지 않으며, 객체 탐지기와 함께 공동 학습이 가능하다. 대표적인 MOT17 벤치마크에서 75.3 MOTA와 59.1 HOTA의 경쟁력 있는 성능을 달성하였다. 더욱 중요한 점은 본 프레임워크가 최첨단 대규모 어휘를 갖춘 탐지기와 원활하게 통합되어 어떤 객체든 추적할 수 있다는 점이다. 도전적인 TAO 데이터셋에서의 실험 결과, 본 프레임워크는 쌍별 연관 기반 기준선 대비 일관되게 성능을 향상시켰으며, 공개된 기존 연구들보다 7.7점의 트래킹 mAP에서 뛰어난 성능을 보였다. 코드는 https://github.com/xingyizhou/GTR 에서 제공된다.