2달 전

시간적으로 일관된 하이브리드 메모리를 이용한 참조 비디오 객체 분할

Bo Miao; Mohammed Bennamoun; Yongsheng Gao; Mubarak Shah; Ajmal Mian
시간적으로 일관된 하이브리드 메모리를 이용한 참조 비디오 객체 분할
초록

참조 비디오 객체 분할(Referring Video Object Segmentation, R-VOS) 방법들은 시간적 맥락의 변동성과 시각적으로 유사한 다른 객체들의 존재로 인해 일관된 객체 분할을 유지하는 데 어려움을 겪습니다. 본 연구에서는 참조 분할과 함께 시간적 인스턴스 일관성을 명시적으로 모델링하는 엔드투엔드 R-VOS 패러다임을 제안합니다. 특히, 강건한 공간-시간 매칭 및 전파를 위한 프레임 간 협력을 용이하게 하는 새로운 하이브리드 메모리를 소개합니다. 자동으로 생성된 고품질 참조 마스크를 가진 프레임들의 특징은 다중 세분화 연관성을 기반으로 나머지 프레임들을 분할하기 위해 전파됩니다. 이를 통해 시간적으로 일관된 R-VOS를 달성할 수 있습니다. 또한, 비디오 분할의 시간적 일관성을 평가하기 위한 새로운 마스크 일관성 점수(Mask Consistency Score, MCS) 지표를 제안합니다. 광범위한 실험 결과는 우리의 접근법이 시간적 일관성을 크게 향상시키며, 인기 있는 R-VOS 벤치마크인 Ref-YouTube-VOS(67.1%)와 Ref-DAVIS17(65.6%)에서 최고 성능을 보였음을 입증합니다. 코드는 https://github.com/bo-miao/HTR에서 확인 가능합니다.

시간적으로 일관된 하이브리드 메모리를 이용한 참조 비디오 객체 분할 | 최신 연구 논문 | HyperAI초신경