2달 전

RVOS: 비디오 객체 분할을 위한 엔드투엔드 순환 신경망

Carles Ventura; Miriam Bellver; Andreu Girbau; Amaia Salvador; Ferran Marques; Xavier Giro-i-Nieto
RVOS: 비디오 객체 분할을 위한 엔드투엔드 순환 신경망
초록

다중 객체 비디오 객체 분할은 특히 초기 프레임에서 객체 마스크가 제공되지 않고 모델이 시퀀스를 따라 분할해야 할 객체를 찾아야 하는 제로샷(zero-shot) 경우에 매우 어려운 작업입니다. 본 연구에서는 완전히 엔드투엔드(end-to-end)로 학습 가능한 다중 객체 비디오 객체 분할을 위한 순환 네트워크(RVOS, Recurrent network for multiple object Video Object Segmentation)를 제안합니다. 우리의 모델은 두 가지 다른 영역에서 순환성을 통합합니다: (i) 공간적 영역, 이는 프레임 내의 다양한 객체 인스턴스를 발견할 수 있게 합니다, 그리고 (ii) 시간적 영역, 이는 시간을 따라 분할된 객체들의 일관성을 유지할 수 있게 합니다. 우리는 RVOS를 제로샷 비디오 객체 분할에 대해 학습시키고 DAVIS-2017 및 YouTube-VOS 벤치마크에 대한 양적 결과를 처음으로 보고합니다. 또한, 이전 시간 단계에서 얻은 마스크들을 순환 모듈이 처리하도록 입력으로 사용하여 RVOS를 원샷(one-shot) 비디오 객체 분할에 적응시킵니다. 우리의 모델은 YouTube-VOS 벤치마크에서 최신 기술들과 유사한 결과를 도출하며, 온라인 학습을 사용하지 않는 모든 이전 비디오 객체 분할 방법보다 DAVIS-2017 벤치마크에서 우수한 성능을 보입니다. 더욱이, 우리의 모델은 이전 방법들보다 더 빠른 추론 실행 시간을 달성하여 P100 GPU에서 44ms/프레임을 기록하였습니다.

RVOS: 비디오 객체 분할을 위한 엔드투엔드 순환 신경망 | 최신 연구 논문 | HyperAI초신경