2달 전

ReferDINO: 시각적 기반을 활용한 참조 비디오 객체 분할

Tianming Liang; Kun-Yu Lin; Chaolei Tan; Jianguo Zhang; Wei-Shi Zheng; Jian-Fang Hu
ReferDINO: 시각적 기반을 활용한 참조 비디오 객체 분할
초록

참조 비디오 객체 분할(Refer Video Object Segmentation, RVOS)은 텍스트 설명을 기반으로 비디오 전체에서 목표 객체를 분할하는 것을 목표로 합니다. 최근 몇 년 동안 눈에 띄는 진전이 이루어졌음에도 불구하고, 현재의 RVOS 모델들은 제한된 비디오-언어 이해 능력으로 복잡한 객체 설명을 처리하는데 어려움을 겪고 있습니다. 이러한 한계를 극복하기 위해, 우리는 \textbf{ReferDINO}를 제시합니다. 이는 사전 학습된 시각적 정렬 모델들의 강력한 시각-언어 이해 능력을 계승하고, 효과적인 시간적 이해와 객체 분할 능력을 추가로 부여받은 엔드투엔드 RVOS 모델입니다. ReferDINO에서는 사전 학습된 모델들을 RVOS에 효과적으로 적응시키기 위한 세 가지 기술적 혁신을 제공합니다: 1) 객체 일관성을 유지하는 시간적 강화기(Object-consistent Temporal Enhancer)로, 사전 학습된 객체-텍스트 표현을 활용하여 시간적 이해와 객체 일관성을 강화합니다; 2) 정렬 안내형 변형 마스크 디코더(Grounding-guided Deformable Mask Decoder)로, 텍스트와 정렬 조건을 통합하여 정확한 객체 마스크를 생성합니다; 3) 신뢰도 인식 쿼리 제거 전략(Confidence-aware Query Pruning Strategy)으로, 성능 저하 없이 객체 디코딩 효율성을 크게 향상시킵니다. 우리는 다섯 개의 공개 RVOS 벤치마크에서 광범위한 실험을 수행하여 제안된 ReferDINO가 최신 방법론들보다 현저히 우수함을 입증하였습니다. 프로젝트 페이지: \url{https://isee-laboratory.github.io/ReferDINO}

ReferDINO: 시각적 기반을 활용한 참조 비디오 객체 분할 | 최신 연구 논문 | HyperAI초신경