2달 전

YouTube-VOS: Sequence-to-Sequence 비디오 객체 분할

Xu, Ning ; Yang, Linjie ; Fan, Yuchen ; Yang, Jianchao ; Yue, Dingcheng ; Liang, Yuchen ; Price, Brian ; Cohen, Scott ; Huang, Thomas
YouTube-VOS: Sequence-to-Sequence 비디오 객체 분할
초록

장기 시공간 특성을 학습하는 것은 많은 비디오 분석 작업에서 중요합니다. 그러나 기존의 비디오 세그멘테이션 방법은 대부분 정적 이미지 세그멘테이션 기술에 의존하며, 시간적 종속성을 포착하여 세그멘테이션을 수행하는 방법은 사전 훈련된 광학 유동(Optical Flow) 모델에 의존해야 하므로 이 문제에 대한 최적의 해결책을 제공하지 못합니다. 비디오 세그멘테이션을 위한 시공간 특성 탐색을 end-to-end 방식으로 수행하는 순차 학습은 이용 가능한 비디오 세그멘테이션 데이터셋의 규모로 인해 크게 제한되어 있습니다. 즉, 가장 큰 비디오 세그멘테이션 데이터셋조차도 단 90개의 짧은 비디오 클립만 포함하고 있습니다. 이 문제를 해결하기 위해 우리는 새로운 대규모 비디오 객체 세그멘테이션 데이터셋인 YouTube Video Object Segmentation 데이터셋(YouTube-VOS)을 구축했습니다. 우리의 데이터셋은 3,252개의 YouTube 비디오 클립과 일반적인 객체와 인간 활동을 포함한 78개 범주를 포함하고 있으며, 이는 현재까지 우리가 알고 있는 가장 큰 비디오 객체 세그멘테이션 데이터셋입니다. 우리는 이를 https://youtube-vos.org에서 공개하였습니다. 이 데이터셋을 바탕으로, 우리는 비디오 세그멘테이션을 위해 장기 시공간 정보를 완전히 활용할 수 있는 새로운 시퀀스-투-시퀀스 네트워크를 제안합니다. 실험 결과, 우리의 방법은 YouTube-VOS 테스트 셋에서 최고의 성능을 보였으며, DAVIS 2016에서도 현행 최고 수준의 방법들과 비교할 만한 결과를 얻었습니다. 실험들은 대규모 데이터셋이 우리 모델의 성공에 있어 중요한 요소임을 입증하였습니다.