2달 전

SAMWISE: 텍스트 기반 비디오 세그멘테이션에 지혜를 부여하는 SAM2

Claudia Cuttano; Gabriele Trivigno; Gabriele Rosi; Carlo Masone; Giuseppe Averta
SAMWISE: 텍스트 기반 비디오 세그멘테이션에 지혜를 부여하는 SAM2
초록

참조 비디오 객체 분할(Referencing Video Object Segmentation, RVOS)은 자연어 표현을 사용하여 비디오 클립에서 객체를 분할합니다. 기존 방법들은 독립적인 짧은 클립에 대한 추론을 제한하거나, 전역적 맥락을 잃거나, 오프라인으로 전체 비디오를 처리하여 스트리밍 방식에서의 적용이 제한됩니다. 본 연구에서는 이러한 한계를 극복하고 과거 프레임의 맥락 정보를 유지하면서 스트리밍과 유사한 시나리오에서 효과적으로 작동하는 RVOS 방법을 설계하는 것을 목표로 합니다. 우리는 강력한 분할 및 추적 기능을 제공하며 스트리밍 처리에 적합한 Segment-Anything 2 (SAM2) 모델을 기반으로 합니다. SAM2의 가중치를 미세 조정하지 않고, 외부 모델에 다중 모달 상호작용을 위탁하지 않으면서, SAM2를 자연어 이해와 명시적인 시간적 모델링 능력을 부여하여 더욱 현명하게 만듭니다. 이를 위해 특징 추출 단계에서 시간적 정보와 다중 모달 힌트를 주입하는 새로운 어댑터 모듈을 도입합니다. 또한 SAM2에서 추적 편향 현상을 밝히고, 현재 프레임 특징이 캡션과 더 일치하는 새로운 객체를 제안할 때 그 추적 초점을 조정하기 위한 학습 가능한 모듈을 제안합니다. 우리 연구팀이 제안한 방법인 SAMWISE는 5M 미만의 파라미터 추가 오버헤드로 다양한 벤치마크에서 최신 수준의 성능을 달성하였습니다. 코드는 https://github.com/ClaudiaCuttano/SAMWISE 에서 확인 가능합니다.

SAMWISE: 텍스트 기반 비디오 세그멘테이션에 지혜를 부여하는 SAM2 | 최신 연구 논문 | HyperAI초신경