7일 전

지역 전체 쌍 대응을 통한 포인트 추적

Seokju Cho, Jiahui Huang, Jisu Nam, Honggyu An, Seungryong Kim, Joon-Young Lee

초록

우리는 영상 시퀀스 내에서 임의의 점을 추적하는(TAP, Tracking Any Point) 작업을 위해 설계된 높은 정확도와 효율성을 갖춘 모델인 LocoTrack을 소개합니다. 기존의 접근 방식은 쿼리 이미지의 점에서 타겟 이미지의 국소 영역으로의 대응 관계를 설정하기 위해 주로 국소 2차원 상관맵을 활용하지만, 이는 균일한 영역이나 반복적인 특징을 가진 경우에 어려움을 겪으며, 대응 불확실성 문제를 야기합니다. LocoTrack은 이러한 도전 과제를 극복하기 위해 지역 간 모든 쌍에 대한 대응 관계, 즉 국소 4차원 상관관계를 활용하는 혁신적인 접근법을 제안합니다. 이는 양방향 대응 및 매칭의 매끄러움을 통해 불확실성에 대한 강건성을 크게 향상시킵니다. 또한, 계산 효율성을 높이기 위해 가벼운 상관 인코더를 도입하고, 장기적 시간 정보를 통합하기 위해 컴팩트한 트랜스포머 아키텍처를 사용합니다. LocoTrack은 모든 TAP-Vid 벤치마크에서 기존의 최고 성능 모델을 뛰어넘는 정확도를 달성하며, 현재 최고 수준의 모델보다 거의 6배 빠른 속도로 작동합니다.