11일 전
움직임 인지 마스크 전파를 통한 자기지도 비디오 객체 세그멘테이션
Bo Miao, Mohammed Bennamoun, Yongsheng Gao, Ajmal Mian

초록
우리는 영상 객체 분할을 위한 자기지도 학습(spontaneous) 공간-시간 매칭 방법인 '운동 인지형 마스크 전파(Motion-Aware Mask Propagation, MAMP)'을 제안한다. MAMP는 레이블이 필요 없이 프레임 재구성(task)을 활용하여 학습한다. 추론 과정에서는 각 프레임으로부터 고해상도 특징을 추출하여, 선택된 과거 프레임들의 예측 마스크와 함께 메모리 은행을 구성한다. 이후 본 연구에서 제안한 운동 인지형 공간-시간 매칭 모듈을 통해 메모리 은행의 마스크를 후속 프레임으로 전파함으로써 빠른 운동과 장기적 매칭 상황을 효과적으로 처리한다. DAVIS-2017 및 YouTube-VOS 데이터셋에서의 평가 결과, 기존 자기지도 학습 방법들과 비교해 더 뛰어난 일반화 능력을 보이며, DAVIS-2017에서 평균 J&F 기준 4.2% 향상, YouTube-VOS의 미리 보지 않은 카테고리에서는 최적의 경쟁자 대비 4.85% 높은 성능을 달성하였다. 또한, 많은 감독 학습 기반 영상 객체 분할 방법과 비슷한 수준의 성능을 기록하였다. 본 연구의 코드는 다음 주소에서 공개되어 있다: https://github.com/bo-miao/MAMP.