2달 전

SAM2Long: 긴 비디오 세그멘테이션을 위한 무학습 메모리 트리로 SAM 2 향상시키기

Shuangrui Ding, Rui Qian, Xiaoyi Dong, Pan Zhang, Yuhang Zang, Yuhang Cao, Yuwei Guo, Dahua Lin, Jiaqi Wang
SAM2Long: 긴 비디오 세그멘테이션을 위한 무학습 메모리 트리로 SAM 2 향상시키기
초록

Segment Anything Model 2 (SAM 2)는 이미지와 비디오에서 객체 분할을 위한 강력한 기초 모델로 부각되어 다양한 하류 비디오 응용 프로그램의 길을 열었습니다. SAM 2의 비디오 분할에 있어 핵심 설계 요소는 이전 프레임에서 객체 인식 메모리를 유도하여 현재 프레임 예측에 사용하는 메모리 모듈입니다. 그러나 그 탐욕적인 선택 메모리 설계는 "오차 누적" 문제를 겪는데, 이는 오류가 발생하거나 마스크가 누락된 경우 해당 오류가 연쇄적으로 작동하여 후속 프레임의 분할에 영향을 미치며, 이로 인해 SAM 2의 성능이 복잡한 장기 비디오에 대한 처리 능력을 제한합니다.이를 해결하기 위해, 우리는 SAM2Long이라는 개선된 훈련 없는 비디오 객체 분할 전략을 소개합니다. SAM2Long은 각 프레임 내의 분할 불확실성을 고려하고, 제약 조건 하에서 여러 분할 경로 중 최적의 결과를 선택하는 트리 검색 방식을 통해 비디오 수준의 최적 결과를 선택합니다. 실제로, 우리는 비디오 전체 과정에서 일정 수의 분할 경로를 유지합니다. 각 프레임마다 기존 경로를 기반으로 여러 마스크가 제안되며, 이를 통해 다양한 후보 지점이 생성됩니다. 그런 다음, 더 높은 누적 점수를 가진 동일한 일정 수의 지점을 새로운 경로로 선택하여 다음 프레임으로 진행합니다. 마지막 프레임 처리 후, 가장 높은 누적 점수를 가진 경로가 최종 분할 결과로 선정됩니다.그림 추론 검색 설계 덕분에, SAM2Long은 가림 현상과 객체 재등장에 대해 강인하며, 복잡한 장기 비디오에서 효과적으로 객체를 분할하고 추적할 수 있습니다. 특히, SAM2Long은 SA-V 및 LVOS와 같은 장기 비디오 객체 분할 벤치마크에서 모든 24개 대조 비교에서 평균 3.0포인트 개선을 이루었으며, J&F 지표에서는 최대 5.3포인트까지 개선되었습니다. 코드는 https://github.com/Mark12Ding/SAM2Long 에서 제공됩니다.

SAM2Long: 긴 비디오 세그멘테이션을 위한 무학습 메모리 트리로 SAM 2 향상시키기 | 최신 연구 논문 | HyperAI초신경