
초록
우리는 비지도 학습 기반의 지오데식 거리 기반 명백한 비디오 객체 분할 방법을 제안한다. 기존의 방법들과 달리, 본 방법은 강건한 지오데식 측정을 통해 객체에 대한 사전 지식으로서 명백성(saliency)을 도입한다. 우리는 전경 객체 위치를 나타내는 두 가지 구분 가능한 시각적 특징—공간적 에지와 시간적 운동 경계—를 고려한다. 먼저, 이러한 지표로부터 지오데식 거리를 이용해 프레임 단위의 공간-시간 명백성 맵을 생성한다. 전경 영역이 높은 공간-시간 에지 값으로 둘러싸여 있다는 관찰에 기반하여, 지오데식 거리는 전경과 배경에 대한 초기 추정을 제공한다. 이후 프레임에서 배경 영역까지의 지오데식 거리를 통해 고품질의 명백성 결과를 도출한다. 생성된 명백성 맵을 바탕으로 전경과 배경에 대한 전역적 외형 모델을 구축한다. 운동의 연속성을 고려하여 각 프레임에 대해 동적 위치 모델을 설정한다. 마지막으로, 공간-시간 명백성 맵, 외형 모델, 동적 위치 모델을 에너지 최소화 프레임워크에 통합함으로써 공간적 및 시간적으로 일관된 객체 분할을 달성한다. 기준 비디오 데이터셋에 대한 광범위한 정량적 및 정성적 실험을 통해 제안된 방법이 최신 기술 대비 우수함을 입증한다.