2달 전

DVIS++: 개선된 분리 프레임워크를 통한 보편적 비디오 세그멘테이션

Tao Zhang; Xingye Tian; Yikang Zhou; Shunping Ji; Xuebo Wang; Xin Tao; Yuan Zhang; Pengfei Wan; Zhongyuan Wang; Yu Wu
DVIS++: 개선된 분리 프레임워크를 통한 보편적 비디오 세그멘테이션
초록

우리는 \textbf{D}ecoupled \textbf{VI}deo \textbf{S}egmentation (DVIS) 프레임워크를 소개합니다. 이는 비디오 인스턴스 세그멘테이션(VIS), 비디오 의미론적 세그멘테이션(VSS), 그리고 비디오 팬옵틱 세그멘테이션(VPS)을 포함하는 보편적인 비디오 세그멘테이션의 어려운 과제에 대한 새로운 접근 방식입니다. 기존 방법들이 비디오 세그멘테이션을 단일 모델로 처리하는 것과 달리, 우리의 접근 방식은 세그멘테이션, 추적, 그리고 정제라는 세 가지 단계로 비디오 세그멘테이션을 분리합니다. 이러한 분리 설계는 특히 복잡한 장면과 긴 비디오에서 객체의 시공간 표현을 더 간단하고 효과적으로 모델링할 수 있게 합니다. 따라서, 우리는 참조 추적기(refering tracker)와 시간적 정제기(temporal refiner)라는 두 가지 새로운 구성 요소를 소개합니다. 이 구성 요소들은 프레임별로 객체를 추적하고 사전 정렬된 특징들에 기반하여 시공간 표현을 모델링합니다. DVIS의 추적 능력을 개선하기 위해, 우리는 노이즈 제거 훈련 전략과 대조 학습(contrastive learning)을 제안하여 DVIS++라는 더 강력한 프레임워크를 구축하였습니다. 또한, 다양한 설정에서 DVIS++를 평가하였으며, 오픈 보카브러리(open vocabulary) 및 사전 훈련된 백본(frozen pre-trained backbone) 사용 등을 포함합니다. CLIP를 DVIS++와 통합하여 OV-DVIS++를 제시하는데, 이는 첫 번째 오픈 보카브러리 보편적인 비디오 세그멘테이션 프레임워크입니다. 우리는 VIS, VSS, VPS 데이터셋을 포함한 여섯 개의 주요 벤치마크에서 광범위한 실험을 수행하였습니다. 통합된 아키텍처를 사용하여 DVIS++는 이 벤치마크들에서 기존의 최신 전문 방법들을 상회하며, 클로즈드 및 오픈 보카브러리 설정 모두에서 우수한 성능을 보여주었습니다.코드:~\url{https://github.com/zhang-tao-whu/DVIS_Plus}.

DVIS++: 개선된 분리 프레임워크를 통한 보편적 비디오 세그멘테이션 | 최신 연구 논문 | HyperAI초신경