
초록
본 논문은 제약 없이 동영상을 분할하는 문제, 특히 움직이는 물체를 분할하는 작업을 다룹니다. 이를 위해 새로운 두 스트림 신경망과 명시적인 메모리 모듈을 소개합니다. 이 신경망의 두 스트림은 각각 비디오 시퀀스에서 공간적 특성과 시간적 특성을 인코딩하며, 메모리 모듈은 시간에 따라 물체의 변화를 포착합니다. 비디오에서 "시각적 메모리"를 구축하는 모듈, 즉 모든 비디오 프레임의 공동 표현은 소수의 훈련 비디오 시퀀스로부터 학습된 합성곱 순환 유닛으로 실현됩니다. 입력으로 주어진 비디오 프레임에 대해 본 접근법은 학습된 시공간 특성 및 비디오 고유의 "시각적 메모리"를 바탕으로 각 픽셀에 물체 또는 배경 라벨을 할당합니다. 이 "시각적 메모리"는 수동으로 주석이 달린 프레임 없이 자동으로 획득됩니다. 시각적 메모리는 합성곱 게이트 순환 유닛(CGRU)을 사용하여 구현되며, 이는 공간 정보를 시간적으로 전파할 수 있게 합니다. 우리는 DAVIS와 Freiburg-Berkeley 움직임 분할 데이터셋이라는 두 벤치마크에서 본 방법론을 철저히 평가하였으며, 최신 기술보다 우수한 결과를 보여주었습니다. 예를 들어, DAVIS 데이터셋에서 우리의 접근법은 최상위 방법론보다 거의 6% 더 우수한 성능을 나타냈습니다. 또한 제안된 프레임워크 내 각 구성요소의 영향력을 조사하기 위해 광범위한 점진적 분석도 제공하였습니다.