13일 전

URVOS: 대규모 벤치마크를 갖춘 통합 참조 비디오 객체 세그멘테이션 네트워크

{Joon-Young Lee, Seonguk Seo, Bohyung Han}
URVOS: 대규모 벤치마크를 갖춘 통합 참조 비디오 객체 세그멘테이션 네트워크
초록

우리는 통합적인 언어 기반 영상 객체 세그멘테이션 네트워크(URVOS)를 제안한다. URVOS는 영상과 언어 표현을 입력으로 받아, 주어진 언어 표현에 해당하는 객체의 마스크를 전체 영상 프레임에 걸쳐 추정한다. 본 알고리즘은 두 가지 주의(attention) 모델을 적절히 조합한 단일 딥 신경망을 사용하여 언어 기반 객체 세그멘테이션과 마스크 전파를 공동으로 수행함으로써 이 도전적인 문제를 해결한다. 또한, 본 연구에서는 처음으로 대규모 언어 기반 영상 객체 세그멘테이션 데이터셋인 Refer-Youtube-VOS를 구축하였다. 제안된 모델은 본 연구에서 구축한 데이터셋을 포함한 두 개의 벤치마크 데이터셋에서 평가되며, 제안한 방법의 효과성을 입증한다. 데이터셋은 https://github.com/skynbe/Refer-Youtube-VOS URL에서 공개된다.

URVOS: 대규모 벤치마크를 갖춘 통합 참조 비디오 객체 세그멘테이션 네트워크 | 최신 연구 논문 | HyperAI초신경