딥 다중 객체 추적기의 훈련 방법

최근 시각 기반 다중 객체 추적(Multi-Object Tracking, MOT) 분야의 트렌드는 딥러닝의 표현 능력을 활용하여 객체 검출과 추적을 동시에 학습하는 방향으로 진행되고 있습니다. 그러나 기존 방법들은 종종 Multi-Object Tracking Accuracy (MOTA) 및 Precision (MOTP)와 같은 확립된 추적 평가 지표와 상관관계가 없는 손실 함수를 사용하여 일부 하위 모듈만을 훈련시키는 경우가 많습니다. 이러한 지표들이 미분 가능하지 않기 때문에, 다중 객체 추적 방법의 엔드투엔드(end-to-end) 훈련에 적합한 손실 함수 선택은 여전히 연구 중인 문제입니다. 본 논문에서는 이 간극을 메우기 위해 MOTA와 MOTP의 미분 가능한 대체 지표를 제안하며, 이를 결합하여 딥 다중 객체 추적기의 엔드투엔드 훈련에 적합한 손실 함수를 구성합니다. 주요 구성 요소로써, Hungarian 매칭 알고리즘을 근사하는 Deep Hungarian Net (DHN) 모듈을 제안합니다. DHN은 객체 추적 경로와 실제 객체 사이의 대응 관계를 추정하여 MOTA와 MOTP의 미분 가능한 대체 지표를 계산할 수 있으며, 이를 통해 딥 추적기를 직접 최적화할 수 있습니다. 실험 결과, 제안된 미분 가능한 프레임워크가 기존 다중 객체 추적기의 성능을 개선함을 입증하였으며, MOTChallenge 벤치마크에서 새로운 최고 성능을 달성하였습니다. 우리의 코드는 공개적으로 https://github.com/yihongXU/deepMOT에서 제공됩니다.