TP-GMOT: 텍스트 프롬프트와 모션-외관 비용(MAC)을 이용한 일반 다중 객체 추적 SORT

다중 객체 추적(Multi-Object Tracking, MOT)은 상당한 발전을 이루어냈지만, 사전 지식에 대한 과도한 의존성과 미리 정의된 범주로 제한되는 문제를 가지고 있습니다. 반면에 일반 다중 객체 추적(Generic Multiple Object Tracking, GMOT)은 비슷한 외관을 가진 여러 객체를 추적하는 데 필요한 사전 정보가 적지만, 시점(viewpoint), 조명(lightning), 가림(occlusion), 해상도(resolution) 등의 변형으로 인해 어려움을 겪고 있습니다. 우리의 기여는 \textbf{\text{Refer-GMOT 데이터셋}}을 소개함으로써 시작됩니다. 이 데이터셋은 각각 세부적인 텍스트 설명이 포함된 동영상들의 모음입니다. 그 다음으로, 사전 학습 예제 없이도 처음 보는 객체 범주를 추적할 수 있는 새로운 텍스트 프롬프트 기반 오픈-어휘 GMOT 프레임워크인 \textbf{\text{TP-GMOT}}를 소개합니다. \text{TP-GMOT} 프레임워크 내에서 우리는 두 가지 새로운 구성 요소를 제안합니다: (i) 특정 특성을 가진 처음 보는 객체를 정확히 감지하기 위한 \textbf{\text{TP-OD}}(텍스트 프롬프트 기반 객체 감지), (ii) 운동과 외관 기반 매칭 전략을 효과적으로 통합하여 높은 유사성을 가진 여러 일반 객체의 복잡한 추적 작업을 해결하는 새로운 객체 연관 접근법인 \textbf{\text{MAC-SORT}}(Motion-Appearance Cost SORT).우리의 기여는 \text{Refer-GMOT} 데이터셋에서 GMOT 작업에 대해 벤치마킹되었습니다. 또한, 제안된 \text{TP-GMOT} 프레임워크의 일반화 능력과 \text{MAC-SORT} 추적기의 효과성을 평가하기 위해, MOT 작업에 대해 DanceTrack 및 MOT20 데이터셋에서 점진적 연구(ablation studies)를 수행했습니다. 데이터셋, 코드 및 모델은 공개적으로 이용 가능하며, 다음과 같은 URL에서 확인할 수 있습니다: https://fsoft-aic.github.io/TP-GMOT