11일 전
RefVOS: 비디오 객체 세그멘테이션을 위한 언급 표현에 대한 보다 깊이 있는 분석
Miriam Bellver, Carles Ventura, Carina Silberer, Ioannis Kazakos, Jordi Torres, Xavier Giro-i-Nieto

초록
언어 지도형 비디오 객체 분할(Referring Expression-based Video Object Segmentation, RefVOS)의 과제는 주어진 언어 표현과 비디오를 바탕으로 해당 표현이 지칭하는 객체에 대한 이진 마스크를 생성하는 것이다. 본 연구는 기존에 이 과제에 사용되는 벤치마크가 주로 단순한 표현으로 쉽게 지칭 대상을 식별할 수 있는 사례들로 구성되어 있다고 주장한다. 이 분석은 DAVIS-2017 및 Actor-Action 데이터셋 내 표현들을 단순한(REs)과 비단순한(REs)으로 새롭게 분류한 데 기반하며, 비단순한 표현들에는 일곱 가지 언어적 의미 범주가 주어져 있다. 본 연구는 이러한 데이터를 활용하여 언어 지도형 이미지 분할에서 경쟁적인 성능을 보이는 새로운 신경망인 RefVOS의 성능을 분석한다. RefVOS는 언어 지도형 비디오 객체 분할 과제에서 최상의 성능을 기록하고 있다. 본 연구 결과에 따르면, 이 과제의 주요 과제는 움직임과 정적 행동을 이해하는 데 있다.