TransCenter: 다중 객체 추적을 위한 밀집 표현을 갖춘 트랜스포머

트랜스포머는 도입된 이후 다양한 작업에서 뛰어난 성능을 입증해 왔다. 최근 몇 년간, 이미지 분류 및 객체 탐지와 같은 작업에서 비전 분야에서도 트랜스포머에 대한 관심이 높아지고 있다. 이러한 흐름 속에서도, 트랜스포머 기반의 정확하고 효율적인 다객체 추적(MOT) 방법은 여전히 개발되지 않았다. 본 연구에서는 이차 복잡도를 가지며 노이즈 초기화된 희소 쿼리가 충분하지 않은 트랜스포머 아키텍처를 직접 적용하는 것은 MOT에 최적화되지 않았다고 주장한다. 이를 해결하기 위해, 모든 객체를 정확히 추적하면서도 합리적인 실행 시간을 유지할 수 있도록 밀집된 표현을 갖춘 트랜스포머 기반의 MOT 아키텍처인 TransCenter를 제안한다. 방법론적으로, 밀집된 이미지 연관 탐지 쿼리와 본 연구에서 철저히 설계한 쿼리 학습 네트워크(QLN)를 통해 효율적으로 생성된 희소 추적 쿼리를 사용한다. 한편으로, 밀집된 이미지 연관 탐지 쿼리는 밀집 히트맵 출력을 통해 타겟 위치를 전역적이고 견고하게 추정할 수 있게 한다. 다른 한편으로, 희소 추적 쿼리 집합은 TransCenter 디코더 내에서 이미지 특징과 효율적으로 상호작용하여 시간에 따라 객체 위치를 연결한다. 그 결과, TransCenter는 두 가지 표준 MOT 벤치마크에서 두 가지 추적 설정(공개/비공개)에서 현재 최고 성능을 기록하는 기법들을 크게 앞서는 뛰어난 성능을 보여주었다. 또한, 광범위한 아블레이션 연구 및 더 단순한 대안과 동시 연구들과의 비교를 통해 TransCenter의 효율성과 정확성이 입증되었다. 과학적 관심을 위해, 코드는 공개되어 있으며 https://github.com/yihongxu/transcenter 에서 확인할 수 있다.