11일 전

TrackFormer: Transformers를 활용한 다중 객체 추적

Tim Meinhardt, Alexander Kirillov, Laura Leal-Taixe, Christoph Feichtenhofer
TrackFormer: Transformers를 활용한 다중 객체 추적
초록

다중 객체 추적(MOT)은 트랙 초기화, 정체성, 공간-시간적 궤적에 대한 동시에 추론이 필요한 도전적인 과제이다. 본 연구에서는 이 과제를 프레임 간 집합 예측 문제로 공식화하고, 인코더-디코더 구조를 기반으로 한 트랜스포머 아키텍처를 활용한 엔드 투 엔드 학습 가능한 MOT 방법인 TrackFormer을 제안한다. 본 모델은 주어진 영상 시퀀스를 통해 트랙 예측 집합을 진화시키며, 어텐션을 통해 프레임 간 데이터 연결을 달성한다. 트랜스포머 디코더는 정적 객체 쿼리를 활용해 새로운 트랙을 초기화하고, 공간적·시간적으로 기존 트랙을 순차적으로 추적하는 개념적으로 새로운 정체성 보존형 트랙 쿼리를 사용한다. 두 가지 유형의 쿼리는 전역 프레임 수준의 특징에 대해 자체 어텐션 및 인코더-디코더 어텐션을 활용하여, 추가적인 그래프 최적화 또는 운동·외형 모델링 없이도 효과적인 추적을 가능하게 한다. TrackFormer은 새로운 '어텐션 기반 추적' 패러다임을 제시하며, 설계가 간단함에도 불구하고 MOT17 및 MOT20에서 최신 기술 수준의 성능을 달성하고, MOTS20(객체 세그멘테이션)에서도 뛰어난 성능을 보인다. 코드는 https://github.com/timmeinhardt/trackformer 에서 공개되어 있다.

TrackFormer: Transformers를 활용한 다중 객체 추적 | 최신 연구 논문 | HyperAI초신경