2달 전
위치와 대상 일관성을 활용한 메모리 기반 비디오 객체 분할
Li Hu; Peng Zhang; Bang Zhang; Pan Pan; Yinghui Xu; Rong Jin

초록
본 논문은 반감독형 비디오 객체 분할(VOS) 문제를 연구합니다. 여러 연구에서는 메모리 기반 접근법이 비디오 객체 분할에 효과적일 수 있음을 보여주었습니다. 이러한 접근법들은 대부분 공간적으로와 시간적으로 픽셀 레벨 매칭을 기반으로 합니다. 그러나 메모리 기반 접근법의 주요 단점은 프레임 간의 순차적인 순서를 고려하지 않고, 대상에서의 객체 레벨 지식을 활용하지 않는다는 점입니다. 이 한계를 극복하기 위해, 우리는 메모리 기반 비디오 객체 분할을 위한 위치 및 대상 일관성 학습 프레임워크(LCM)를 제안합니다. 이 프레임워크는 전역적으로 픽셀을 검색하는 메모리 메커니즘을 적용하면서 동시에 더 신뢰성 있는 분할을 위해 위치 일관성을 학습합니다. 학습된 위치 응답은 대상과 방해물 사이의 구분력을 향상시킵니다. 또한, LCM은 대상에서의 객체 레벨 관계를 도입하여 대상 일관성을 유지시키며, 이로 인해 LCM은 오류 유동에 대해 더욱 강건해집니다. 실험 결과, 우리의 LCM이 DAVIS와 Youtube-VOS 벤치마크에서 최고 성능을 달성하였으며, DAVIS 2020 챌린지 반감독형 VOS 태스크에서 1위를 차지하였습니다.