16일 전
TAPIR: 프레임별 초기화와 시간적 보정을 통한 임의의 점 추적
Carl Doersch, Yi Yang, Mel Vecerik, Dilara Gokay, Ankush Gupta, Yusuf Aytar, Joao Carreira, Andrew Zisserman

초록
우리는 영상 시퀀스 전체에 걸쳐 물리적 표면 상의 임의의 쿼리 포인트를 효과적으로 추적할 수 있는 새로운 모델인 Tracking Any Point(TAP)을 제안한다. 본 연구는 두 단계로 구성된 접근법을 사용한다. (1) 매칭 단계에서는 각 프레임마다 쿼리 포인트에 적합한 후보 포인트 매칭을 독립적으로 탐지하고, (2) 정제 단계에서는 국소적 상관관계를 기반으로 궤적과 쿼리 특징을 동시에 업데이트한다. 제안한 모델은 TAP-Vid 벤치마크에서 기존의 모든 기준 모델을 크게 능가하며, DAVIS 데이터셋에서 평균 Jaccard(AJ) 지표 기준 약 20%의 절대적 개선을 보였다. 본 모델은 긴 시간 길이와 고해상도 영상 시퀀스에서도 빠른 추론이 가능하게 한다. 최신 GPU에서의 구현 결과, 실시간보다 빠른 속도로 포인트 추적을 수행할 수 있으며, 고해상도 영상으로의 유연한 확장도 가능하다. 대규모 데이터셋에서 추출한 고품질 궤적을 바탕으로, 정적 이미지에서 궤적을 생성하는 개념 증명용 확산 모델을 제시하며, 자연스러운 애니메이션 생성을 가능하게 한다. 시각화 결과, 소스 코드 및 사전 학습된 모델은 프로젝트 웹페이지에서 확인할 수 있다.