
초록
본 논문에서는 새로운 컴퓨터 비전 과제인 비디오 인스턴스 세그멘테이션을 제시합니다. 이 새로운 과제의 목표는 비디오 내에서 인스턴스的同时检测、分割和跟踪(동시 탐지, 세그멘테이션 및 추적)입니다. 구체적으로, 이미지 인스턴스 세그멘테이션 문제를 처음으로 비디오 영역으로 확장하였습니다. 이 새로운 과제에 대한 연구를 지원하기 위해, 2883개의 고해상도 유튜브 비디오, 40개 범주로 구성된 라벨 집합 및 131,000개의 고품질 인스턴스 마스크를 포함하는 대규모 벤치마크인 YouTube-VIS를 제안합니다. 또한, 이 과제를 위한 새로운 알고리즘인 MaskTrack R-CNN을 제안합니다. 본 방법은 Mask R-CNN에 새로운 추적 분기를 도입하여 탐지, 세그멘테이션 및 추적 작업을 동시에 수행하도록 설계되었습니다. 마지막으로, 제안된 방법과 여러 강력한 기준 모델을 새 데이터셋에서 평가하였습니다. 실험 결과는 제안된 알고리즘의 우수성을 명확히 입증하였으며, 향후 개선 방향에 대한 통찰력을 제공하였습니다. 우리는 비디오 인스턴스 세그멘테이션 과제가 비디오 이해 연구 분야에서 커뮤니티의 발전을 촉진할 것이라고 믿습니다.