End-to-end 및 Non-End-to-end 다중 객체 추적 간의 간극 극복

기존의 단일 통로 다중 객체 추적(e2e-MOT) 방법들은 검출 기반 추적(non-end-to-end tracking-by-detection) 방법들을 능가하지 못했습니다. 이는 훈련 중 라벨 할당 전략이 추적된 객체를 추적 쿼리와 일관되게 연결하고, 그 다음에 새로 생긴 객체들을 검출 쿼리에 할당하기 때문일 수 있습니다. 일대일 이분 매칭(one-to-one bipartite matching)을 사용하면 이러한 할당은 특히 비디오 초반에 대부분의 새로운 객체들이 등장하는 폐쇄된 장면에서 검출 쿼리에 대한 긍정 샘플이 부족해지는 불균형한 훈련을 초래할 것입니다. 따라서, e2e-MOT는 다른 검출 기반 추적 방법들보다 갱신이나 재초기화 없이 추적 종료 상태가 더 쉽게 발생할 가능성이 있습니다. 이러한 문제를 완화하기 위해, 우리는 새로운 협력 경쟁(coopetition) 라벨 할당 방식과 그림자(shadow) 개념을 도입하여 e2e-MOT를 지원하는 간단하면서도 효과적인 방법인 Co-MOT를 제시합니다. 구체적으로, 중간 디코더를 훈련시키는 라벨 할당 과정에서 검출 쿼리의 매칭 대상으로 추적된 객체들을 추가합니다. 쿼리 초기화 시에는 각 쿼리를 자신에게 제한적인 방해만 주는 여러 개의 그림자 대응체로 확장합니다. 광범위한 아바레이션(ablation) 실험 결과, Co-MOT는 추가 비용 없이 우수한 성능을 달성하였습니다. 예를 들어, DanceTrack 데이터셋에서는 69.4% HOTA(Higher Order Tracking Accuracy), BDD100K 데이터셋에서는 52.8% TETA(Temporal Efficiency and Tracking Accuracy)를 기록하였습니다. 더욱 인상적인 점은, Co-MOT가 MOTRv2의 약 38%의 FLOPs(Floating Point Operations per Second)만으로 유사한 성능을 얻어 1.4배 더 빠른 추론 속도를 제공한다는 것입니다.