13일 전
URVOS: 대규모 벤치마크를 갖춘 통합 참조 비디오 객체 세그멘테이션 네트워크
{Joon-Young Lee, Seonguk Seo, Bohyung Han}

초록
우리는 통합적인 언어 기반 영상 객체 세그멘테이션 네트워크(URVOS)를 제안한다. URVOS는 영상과 언어 표현을 입력으로 받아, 주어진 언어 표현에 해당하는 객체의 마스크를 전체 영상 프레임에 걸쳐 추정한다. 본 알고리즘은 두 가지 주의(attention) 모델을 적절히 조합한 단일 딥 신경망을 사용하여 언어 기반 객체 세그멘테이션과 마스크 전파를 공동으로 수행함으로써 이 도전적인 문제를 해결한다. 또한, 본 연구에서는 처음으로 대규모 언어 기반 영상 객체 세그멘테이션 데이터셋인 Refer-Youtube-VOS를 구축하였다. 제안된 모델은 본 연구에서 구축한 데이터셋을 포함한 두 개의 벤치마크 데이터셋에서 평가되며, 제안한 방법의 효과성을 입증한다. 데이터셋은 https://github.com/skynbe/Refer-Youtube-VOS URL에서 공개된다.