2달 전

SAMURAI: 모션 인식 메모리를 활용한 제로샷 시각 추적을 위한 세그먼트 임의 모델 적응

Cheng-Yen Yang, Hsiang-Wei Huang, Wenhao Chai, Zhongyu Jiang, Jenq-Neng Hwang
SAMURAI: 모션 인식 메모리를 활용한 제로샷 시각 추적을 위한 세그먼트 임의 모델 적응
초록

세그먼트 어니딩 모델 2 (SAM 2)는 객체 분할 작업에서 강력한 성능을 보여주지만, 특히 빠르게 움직이거나 자기 자신을 가리는 객체가 있는 혼잡한 장면에서 시각적 객체 추적에 어려움을 겪습니다. 또한 원래 모델의 고정된 윈도우 메모리 접근 방식은 다음 프레임의 이미지 특성을 조건부로 만드는 데 사용되는 메모리의 품질을 고려하지 않아, 비디오에서 오류 전파를 초래합니다. 이 논문에서는 시각적 객체 추적을 위해 특별히 설계된 SAM 2의 개선된 변형인 SAMURAI를 소개합니다. 시간적인 운동 신호와 제안된 운동 인식 메모리 선택 메커니즘을 통합함으로써, SAMURAI는 객체의 운동을 효과적으로 예측하고 마스크 선택을 정교화하여 재학습이나 미세 조정 없이도 강력하고 정확한 추적을 실현합니다. SAMURAI는 실시간으로 작동하며 다양한 벤치마크 데이터셋에서 강력한 제로샷 성능을 보여주어 미세 조정 없이 일반화 능력을 입증합니다. 평가 결과, SAMURAI는 기존 추적기보다 성공률과 정밀도에서 크게 향상되었으며, LaSOT_{ext}에서는 7.1%의 AUC(Area Under Curve) 증가와 GOT-10k에서는 3.5%의 AO(Average Overlap) 증가를 달성했습니다. 더욱이, LaSOT에서 완전히 지도된 방법과 비교해 경쟁력 있는 결과를 보여주어 복잡한 추적 상황에서의 견고성과 동적인 환경에서 실제 응용 가능성을 강조합니다. 코드와 결과는 https://github.com/yangchris11/samurai 에서 확인할 수 있습니다.