비지도 영상 객체 세분화를 위한 상호 전환 변환

비지도 영상 객체 분할(Unsupervised Video Object Segmentation, UVOS)은 인간의 개입 없이 영상 내 주요 객체를 분할하는 것을 목표로 한다. 주요 객체에 대한 사전 지식이 부족한 상황에서 이들 객체를 영상에서 식별하는 것이 UVOS의 주요 과제이다. 기존의 방법들은 일반적으로 움직이는 객체를 주요 객체로 간주하고, 영상 내 움직임 특징을 포착하기 위해 광학 흐름(optical flow)에 의존하지만, 단순한 흐름 정보만으로는 함께 움직이는 배경 객체와 주요 객체를 구분하기에는 부족하다. 이는 노이즈가 많은 움직임 특징이 외관 특징과 결합될 때 주요 객체의 정확한 위치 추정이 오도되기 때문이다. 본 연구에서는 영상 내부 대비(intra-frame contrast), 움직임 특징(motion cues), 반복되는 객체의 시간적 일관성(temporal coherence)이라는 세 가지 핵심 요소를 상호 연관시켜 주요 객체를 탐지하는 새로운 상호 변환 네트워크를 제안한다. 각 요소는 주요 객체의 대표적인 유형에 대응하며, 본 연구에서 제안하는 상호 메커니즘은 이 세 가지 요소를 유기적으로 조율함으로써 영상 내 모호한 방해 요소를 효과적으로 제거할 수 있다. 또한, 움직이는 배경 객체의 정보가 움직임 특징에 포함되는 것을 방지하기 위해, 본 연구의 변환 모듈은 외관 특징을 상호 변환함으로써 움직임 특징을 강화함으로써, 두드러진 외관을 가진 움직이는 객체에 집중하면서 함께 움직이는 이상치(outliers)를 제거할 수 있도록 한다. 공개 벤치마크에서 수행된 실험 결과, 제안하는 모델이 최신 기술들에 비해 유의미하게 우수한 성능을 보임을 확인하였다.