
초록
현재 다중 객체 추적(Multiple Object Tracking, MOT) 기법은 탐지 결과 간의 공간-시간적 일관성과 객체의 외형 정보를 결합하여 연속 프레임 간 객체를 매칭하는 데 의존하고 있다. 본 연구에서는 영상 내 객체 간의 연관성 추정에 객체의 외형 정보를 주요 근거로 삼고, 공간적 및 시간적 사전 지식을 가중치 요소로 활용하는 새로운 접근 방식을 제안한다. 우리는 시간적으로 가까운 객체 인스턴스는 외형적으로 유사해야 한다는 전제를 기반으로 초기 트랙릿(Tracklet)을 생성하고, 계층적으로 트랙릿을 융합함으로써 최종 객체 트랙을 구성한다. 제안한 방법에 대해 MOT17, MOT20, DanceTrack 세 가지 다양한 MOT 벤치마크에서 광범위한 실험을 수행한 결과, MOT17과 MOT20에서는 경쟁력을 갖추었으며, DanceTrack에서는 최신 기술(SOTA) 수준의 우수한 성능을 달성하였다.