7일 전

BootsTAP: 추적-어떤-점에 대한 부트스트랩 트레이닝

Carl Doersch, Pauline Luc, Yi Yang, Dilara Gokay, Skanda Koppula, Ankush Gupta, Joseph Heyward, Ignacio Rocco, Ross Goroshin, João Carreira, Andrew Zisserman
BootsTAP: 추적-어떤-점에 대한 부트스트랩 트레이닝
초록

물리 및 운동에 대한 모델의 이해를 강화하기 위해, 실제 장면에서 고체 표면이 어떻게 움직이거나 변형되는지를 인식할 수 있도록 하는 것이 유용하다. 이를 추적-어떤-점(Tracking-Any-Point, TAP)으로 수학적으로 정의할 수 있으며, 이는 영상 내 고체 표면의 임의의 점을 공간적·시간적으로 밀도 있게 추적할 수 있어야 한다는 요구 조건을 포함한다. 현재 TAP에 대한 대규모 지정된 참값(groundtruth) 학습 데이터는 시뮬레이션 환경에서만 제공되며, 이는 객체의 종류와 운동의 다양성이 제한되어 있다. 본 연구에서는 아키텍처의 최소한의 변경만으로도 대규모의 레이블 없고 정제되지 않은 실세계 데이터를 활용하여 TAP 모델의 성능을 향상시킬 수 있음을 보여준다. 이를 위해 자기지도 학습(self-supervised) 기반의 학생-선생 모델 구조를 사용하였다. 제안한 방법은 TAP-Vid 벤치마크에서 기존 결과를 크게 뛰어넘는 최신 기술 수준의 성능을 달성하였다. 예를 들어, TAP-Vid-DAVIS의 성능은 61.3%에서 67.4%로 향상되었으며, TAP-Vid-Kinetics는 57.2%에서 62.5%로 개선되었다. 시각화 결과는 다음과 같은 프로젝트 웹사이트에서 확인할 수 있다: https://bootstap.github.io/

BootsTAP: 추적-어떤-점에 대한 부트스트랩 트레이닝 | 최신 연구 논문 | HyperAI초신경