15일 전
SynthRef: 개체 세그멘테이션을 위한 합성 지시 표현 생성
Ioannis Kazakos, Carles Ventura, Miriam Bellver, Carina Silberer, Xavier Giro-i-Nieto

초록
최근 딥러닝의 발전으로 언어 지도형 비디오 객체 분할과 같은 시각적 기반 작업에서 큰 진전이 이루어졌으나, 이러한 작업을 위한 대규모 데이터셋을 수집하는 데는 annotation 시간 측면에서 매우 높은 비용이 발생하며, 이는 여전히 주요한 한계로 작용하고 있다. 이를 해결하기 위해 우리는 이미지(또는 비디오 프레임) 내의 타깃 객체에 대한 합성 언어 표현을 생성하는 새로운 방법인 SynthRef를 제안한다. 또한, 비디오 객체 분할을 위한 합성 언어 표현을 포함한 최초의 대규모 데이터셋을 구축하고 공개한다. 실험 결과, 우리 합성 언어 표현을 사용하여 모델을 훈련할 경우, 추가적인 annotation 비용 없이도 다양한 데이터셋 간의 일반화 능력을 향상시킬 수 있음을 입증하였다. 더불어, 본 연구의 제안 방식은 객체 탐지 또는 분할 데이터셋이라면 어떤 것에도 적용 가능하다.