16일 전

다수 객체 추적을 ID 예측으로서 접근하기

Ruopeng Gao, Ji Qi, Limin Wang
다수 객체 추적을 ID 예측으로서 접근하기
초록

다중 객체 추적(Multi-Object Tracking, MOT)은 영상 이해 분야에서 오랫동안 지속된 도전 과제이다. 자연스럽고 직관적인 접근 방식은 이 과제를 객체 탐지와 객체 연관성 설정이라는 두 가지 단계로 분리하는 것이다. 대부분의 주류 방법들은 궤적 정보를 유지하고 객체 매칭을 위한 비용 행렬을 계산하기 위해 정교하게 설계된 휴리스틱 기법을 활용한다. 이러한 방법들은 뛰어난 추적 성능을 달성할 수 있지만, 복잡한 시나리오에서 작동할 때는 수많은 세부적인 수작업적 수정이 필요하다는 한계가 있다. 우리는 수작업으로 가정한 사전 지식이 도메인 특화 데이터로부터 최적의 추적 능력을 학습하는 데 있어 방법의 적응성과 유연성을 제한한다고 판단하였다. 따라서 우리는 다중 객체 추적을 ‘문맥 내 ID 예측’ 문제로 재정의하는 새로운 시각을 제안하며, 기존의 객체 연관성 설정을 종단 간(end-to-end) 학습 가능한 작업으로 전환한다. 이를 기반으로, 간단하면서도 효과적인 방법인 MOTIP을 제안한다. ID 정보를 포함한 궤적 집합을 입력으로 받아, 현재 탐지된 객체들의 ID 레이블을 직접 복원함으로써 연관성 설정 과정을 수행한다. 특별히 맞춤형 또는 복잡한 아키텍처를 사용하지 않고도, 객체 수준의 특징만을 활용함으로써 여러 벤치마크에서 최신 기준(SOTA) 성능을 달성하였다. MOTIP의 간결성과 뛰어난 성능은 향후 연구를 위한 큰 발전 가능성을 시사하며, 이후 연구에 유망한 기준 모델이 될 수 있다. 코드와 체크포인트는 https://github.com/MCG-NJU/MOTIP 에 공개되어 있다.

다수 객체 추적을 ID 예측으로서 접근하기 | 최신 연구 논문 | HyperAI초신경