2달 전

Look Before You Match: Instance Understanding Matters in Video Object Segmentation 시퀀스 분석 전에 확인하기: 비디오 객체 세분화에서 인스턴스 이해의 중요성

Junke Wang; Dongdong Chen; Zuxuan Wu; Chong Luo; Chuanxin Tang; Xiyang Dai; Yucheng Zhao; Yujia Xie; Lu Yuan; Yu-Gang Jiang
Look Before You Match: Instance Understanding Matters in Video Object Segmentation
시퀀스 분석 전에 확인하기: 비디오 객체 세분화에서 인스턴스 이해의 중요성
초록

장기 컨텍스트 모델링을 위한 현재 프레임과 과거 프레임 간의 밀도 높은 매칭 탐색에서 메모리 기반 방법들이 최근 비디오 객체 분할(VOS)에서 인상적인 결과를 보여주었습니다. 그러나, 객체 인스턴스 이해 능력 부족으로 인해 이러한 접근법들은 객체와 카메라의 움직임으로 인한 큰 외관 변화나 시점 변경에 대해 종종 취약합니다. 본 논문에서는 VOS에서 인스턴스 이해가 중요하다는 주장을 제시하며, 이를 메모리 기반 매칭과 통합하면 시너지를 얻을 수 있다고 주장합니다. 이는 VOS 작업의 정의, 즉 비디오 내에서 객체 인스턴스를 식별하고 분할하는 것에서 직관적으로 이해될 수 있습니다. 이를 위해 우리는 쿼리 기반 인스턴스 분할(IS) 브랜치와 VOS 브랜치로 구성된 두 가지 브랜치 네트워크를 제안합니다. IS 브랜치는 현재 프레임의 인스턴스 세부 정보를 탐색하고, VOS 브랜치는 메모리 은행과 공간-시간 매칭을 수행합니다. 우리는 IS 브랜치에서 잘 학습된 객체 쿼리를 사용하여 쿼리 키에 인스턴스 특화 정보를 주입하며, 이를 통해 더욱 강화된 인스턴스 기반 매칭이 이루어집니다. 또한, 멀티 패쓰 융합 블록을 도입하여 메모리 읽기 출력과 인스턴스 분할 디코더에서 추출한 다중 스케일 특성을 효과적으로 결합합니다. 이는 고해상도의 인스턴스 인식 특성을 활용하여 최종 분할 결과를 생성합니다. 우리의 방법은 DAVIS 2016/2017 val(92.6% 및 87.1%), DAVIS 2017 test-dev(82.8%), 그리고 YouTube-VOS 2018/2019 val(86.3% 및 86.3%)에서 최고 수준의 성능을 달성하였으며, 다른 방법들보다 명확히 우수한 결과를 보였습니다.

Look Before You Match: Instance Understanding Matters in Video Object Segmentation 시퀀스 분석 전에 확인하기: 비디오 객체 세분화에서 인스턴스 이해의 중요성 | 최신 연구 논문 | HyperAI초신경