11일 전

움직임 인지 마스크 전파를 통한 자기지도 비디오 객체 세그멘테이션

Bo Miao, Mohammed Bennamoun, Yongsheng Gao, Ajmal Mian
움직임 인지 마스크 전파를 통한 자기지도 비디오 객체 세그멘테이션
초록

우리는 영상 객체 분할을 위한 자기지도 학습(spontaneous) 공간-시간 매칭 방법인 '운동 인지형 마스크 전파(Motion-Aware Mask Propagation, MAMP)'을 제안한다. MAMP는 레이블이 필요 없이 프레임 재구성(task)을 활용하여 학습한다. 추론 과정에서는 각 프레임으로부터 고해상도 특징을 추출하여, 선택된 과거 프레임들의 예측 마스크와 함께 메모리 은행을 구성한다. 이후 본 연구에서 제안한 운동 인지형 공간-시간 매칭 모듈을 통해 메모리 은행의 마스크를 후속 프레임으로 전파함으로써 빠른 운동과 장기적 매칭 상황을 효과적으로 처리한다. DAVIS-2017 및 YouTube-VOS 데이터셋에서의 평가 결과, 기존 자기지도 학습 방법들과 비교해 더 뛰어난 일반화 능력을 보이며, DAVIS-2017에서 평균 J&F 기준 4.2% 향상, YouTube-VOS의 미리 보지 않은 카테고리에서는 최적의 경쟁자 대비 4.85% 높은 성능을 달성하였다. 또한, 많은 감독 학습 기반 영상 객체 분할 방법과 비슷한 수준의 성능을 기록하였다. 본 연구의 코드는 다음 주소에서 공개되어 있다: https://github.com/bo-miao/MAMP.

움직임 인지 마스크 전파를 통한 자기지도 비디오 객체 세그멘테이션 | 최신 연구 논문 | HyperAI초신경