SMILEtrack: 겹침 인지 다중 객체 추적을 위한 SiMIlarity 학습

다수 객체 추적(Multiple Object Tracking, MOT) 분야는 최근 몇 가지 진전을 이루었지만, 가림현상, 유사한 객체, 복잡한 장면과 같은 여러 도전 과제들이 여전히 해결되지 않은 과제로 남아 있다. 한편, 대표적인 탐지 기반 추적(tracking-by-detection) 패러다임의 비용-성능 간 균형(cost-performance tradeoff)에 대한 체계적인 연구는 여전히 부족한 실정이다. 본 논문은 효율적인 객체 탐지기와 시아메스 네트워크 기반의 유사도 학습 모듈(Siamese network-based Similarity Learning Module, SLM)을 통합함으로써 이러한 문제들을 효과적으로 해결하는 혁신적인 객체 추적기 SMILEtrack을 제안한다. SMILEtrack의 기술적 기여는 두 가지 측면에서 이루어진다. 첫째, 두 객체 간 외형 유사도를 계산하는 SLM을 제안하며, 별도의 탐지 및 임베딩(Separate Detection and Embedding, SDE) 모델에서 특징 기술자(feature descriptors)의 한계를 극복한다. 이 SLM은 비전 트랜스포머(Vision Transformer)의 영향을 받은 패치 자기주의(Patch Self-Attention, PSA) 블록을 포함하여 정확한 유사도 매칭을 위한 신뢰성 있는 특징을 생성한다. 둘째, 연속된 영상 프레임 간에 강력한 객체 매칭을 가능하게 하는 새로운 GATE 함수를 갖춘 유사도 매칭 캐스케이드(Similarity Matching Cascade, SMC) 모듈을 개발하였다. 이는 MOT 성능을 추가로 향상시킨다. 이러한 혁신적 요소들이 결합되어 SMILEtrack은 BYTETrack을 포함한 여러 최신 상태의 기준 데이터셋에서 비용(예: 실행 속도)과 성능(예: 추적 정확도) 간의 개선된 균형을 달성한다. MOT17 및 MOT20 데이터셋에서 SMILEtrack은 BYTETrack보다 MOTA 기준 0.4~0.8점, HOTA 기준 2.1~2.2점 향상된 성능을 보였다. 코드는 다음 링크에서 제공된다: https://github.com/pingyang1117/SMILEtrack_Official