4달 전

지역 인식 비디오 객체 분할을 위한 깊은 움직임 모델링

Bo Miao; Mohammed Bennamoun; Yongsheng Gao; Ajmal Mian
지역 인식 비디오 객체 분할을 위한 깊은 움직임 모델링
초록

현재의 반지도 비디오 객체 분할(VOS) 방법들은 일반적으로 한 프레임의 전체 특징을 활용하여 객체 마스크를 예측하고 메모리를 업데이트합니다. 이는 상당한 중복 계산을 초래합니다. 이러한 중복성을 줄이기 위해, 우리는 효율적인 객체 분할과 메모리 저장을 위한 관심 영역(ROIs)을 예측하는 지역 인식 비디오 객체 분할(RAVOS) 접근법을 제시합니다. RAVOS는 다음 프레임에서 ROIs를 예측하기 위한 빠른 객체 움직임 추적기를 포함합니다. 효율적인 분할을 위해, 객체 특징은 ROIs에 따라 추출되며, 객체 수준의 분할을 위한 객체 디코더가 설계되었습니다. 효율적인 메모리 저장을 위해, 우리는 두 프레임 사이의 객체 움직임 경로 내의 특징만 기억함으로써 중복된 맥락을 필터링하는 움직임 경로 메모리를 제안합니다. 또한 RAVOS 외에도, 우리는 차단 상태에서 VOS 모델의 성능을 평가하기 위한 대규모 데이터셋인 OVOS를 제안합니다. DAVIS와 YouTube-VOS 벤치마크 및 새로운 OVOS 데이터셋에서의 평가는 우리의 방법이 현저히 빠른 추론 시간으로 최고 수준의 성능을 달성함을 보여줍니다. 예를 들어, DAVIS에서는 42 FPS에서 86.1 J&F, YouTube-VOS에서는 23 FPS에서 84.4 J&F를 기록했습니다.