
목표형 반감독 비디오 객체 분할은 첫 번째 프레임에서 주어진 객체 레이블을 기반으로 이후 프레임에서 객체를 분할하는 것을 의미한다. 기존의 알고리즘은 주로 일치(matching)와 전파(propagation) 전략에 기반하며, 보통 이전 프레임의 마스크 또는 광학 흐름(optical flow)을 활용한다. 본 논문은 새로운 전파 방식을 탐구하며, 단기 일치 모듈(short-term matching module)을 사용하여 이전 프레임의 정보를 추출하고 이를 전파 과정에 적용한다. 이를 바탕으로 비디오 객체 분할을 위한 장단기 유사성 일치 네트워크(Long-Short-Term similarity matching for video object segmentation, LSMOVS)를 제안한다. 방법: 첫 번째 프레임과 이전 프레임을 장기 일치 모듈(long-term matching module)과 단기 일치 모듈 사이에서 픽셀 단위의 일치 및 상관관계를 계산함으로써, 전역 유사성 맵(global similarity map)과 국부 유사성 맵(local similarity map), 현재 프레임의 특징 패턴(feature pattern), 그리고 이전 프레임의 마스크를 얻는다. 이후 두 개의 개선(refine) 네트워크를 거쳐 분할 네트워크를 통해 최종 결과를 도출한다. 결과: DAVIS 2016 및 2017 두 데이터셋에서 수행된 실험 결과, 본 논문의 방법은 온라인 미세 조정(online fine-tuning) 없이도 우수한 평균 영역 유사성 및 윤곽 정확도를 달성하였다. 단일 객체의 경우 86.5%, 다중 객체의 경우 77.4%의 성능을 기록하였다. 또한 초당 분할 가능한 프레임 수는 21개에 달했다. 결론: 본 논문에서 제안한 단기 일치 모듈은 단순한 마스크만을 활용하는 것보다 이전 프레임의 정보를 더 효과적으로 추출할 수 있다. 장기 일치 모듈과 단기 일치 모듈을 결합함으로써, 온라인 미세 조정 없이도 효율적인 비디오 객체 분할을 달성할 수 있는 전체 네트워크 구조를 실현할 수 있었다.