
다중 객체 추적(Multi-object Tracking, MOT)은 컴퓨터 비전 분야에서 핵심적이며 매우 유망한 분야로 부상하고 있습니다. 전통적인 폐쇄어휘 MOT(Closed-Vocabulary MOT, CV-MOT) 방법은 사전 정의된 카테고리의 객체를 추적하는 것을 목표로 합니다. 최근에는 일부 개방어휘 MOT(Open-Vocabulary MOT, OV-MOT) 방법이 알려지지 않은 카테고리를 추적하는 문제를 성공적으로 해결하였습니다. 그러나 우리는 CV-MOT와 OV-MOT 방법이 각각 상대방의 작업에서 뛰어난 성과를 내는 데 어려움을 겪는다는 것을 발견했습니다. 이 논문에서는 어떤 기성 검출기와도 통합할 수 있으며 알려지지 않은 카테고리를 지원하는 CV-MOT와 OV-MOT를 동시에 처리하는 통합 프레임워크인 모든 검출된 객체 연결(Associate Everything Detected, AED)을 제시합니다.기존의 검출 기반 MOT 방법들과 달리 AED는 사전 지식(예: 운동 힌트)을 배제하고 복잡한 궤적을 처리하기 위해 매우 강력한 특징 학습에만 의존하여 OV-MOT 작업에서 우수한 성능을 유지하면서도 CV-MOT 작업에서도 뛰어난 성능을 발휘합니다. 구체적으로, 우리는 연관 작업을 유사성 해독 문제로 모델링하고 연관 중심 학습 메커니즘을 갖춘 sim-decoder를 제안합니다. sim-decoder는 공간적, 시간적, 그리고 클립 간 세 가지 측면에서 유사성을 계산합니다. 그 다음으로, 연관 중심 학습은 이러한 삼중의 유사성을 활용하여 추출된 특징들이 지속적인 추적에 적합하며 알려지지 않은 카테고리에도 일반화될 만큼 충분히 강건하도록 보장합니다.기존의 강력한 OV-MOT 및 CV-MOT 방법들과 비교하여 AED는 어떠한 사전 지식 없이 TAO, SportsMOT, 그리고 DanceTrack 데이터셋에서 우월한 성능을 보입니다. 우리의 코드는 https://github.com/balabooooo/AED에서 확인할 수 있습니다.