2달 전

MPG-SAM 2: 마스크 사전 정보와 전역 컨텍스트를 활용한 참조 비디오 객체 분할을 위한 SAM 2 적응

Fu Rong; Meng Lan; Qian Zhang; Lefei Zhang
MPG-SAM 2: 마스크 사전 정보와 전역 컨텍스트를 활용한 참조 비디오 객체 분할을 위한 SAM 2 적응
초록

참조 비디오 객체 분할(Referencing Video Object Segmentation, RVOS)은 텍스트 설명에 따라 비디오 내의 객체를 분할하는 것을 목표로 하며, 이는 다중 모달 정보의 통합과 시간적 동역학 인식이 필요합니다. Segment Anything Model 2 (SAM 2)는 다양한 비디오 분할 작업에서 뛰어난 효과를 보여주었습니다. 그러나 오프라인 RVOS에 적용할 때, 텍스트를 효과적인 프롬프트로 번역하고 전역 컨텍스트 인식 부족 문제가 도전으로 제기됩니다. 본 논문에서는 이러한 도전 과제들을 해결하기 위해 새로운 RVOS 프레임워크인 MPG-SAM 2를 제안합니다. 구체적으로, MPG-SAM 2는 비디오와 텍스트 특성을 공동으로 인코딩하여 의미적으로 일치하는 비디오와 텍스트 임베딩 및 다중 모달 클래스 토큰을 생성하는 통합된 다중 모달 인코더를 사용합니다. 마스크 사전 생성기는 비디오 임베딩과 클래스 토큰을 활용하여 대상 객체와 전역 컨텍스트의 가짜 마스크를 생성합니다. 이러한 마스크들은 밀도형 프롬프트로, 다중 모달 클래스 토큰은 희소형 프롬프트로 프롬프트 인코더에 입력되어 SAM 2용 정확한 프롬프트를 생성합니다. 온라인 SAM 2에게 전역적인 시각을 제공하기 위해, 우리는 계층적 전역-히스토리 집계기(hierarchical global-historical aggregator)를 도입하였습니다. 이는 SAM 2가 픽셀 수준과 객체 수준에서 대상 객체의 전역 및 역사적 정보를 집계하여 대상 표현과 시간적 일관성을 강화하도록 합니다. 여러 RVOS 벤치마크에서 수행된 광범위한 실험들은 MPG-SAM 2의 우수성과 우리 제안 모듈들의 효과성을 입증하였습니다.

MPG-SAM 2: 마스크 사전 정보와 전역 컨텍스트를 활용한 참조 비디오 객체 분할을 위한 SAM 2 적응 | 최신 연구 논문 | HyperAI초신경