3달 전
2021 YouTubeVOS 챌린지 1위 솔루션: 비디오 인스턴스 세그멘테이션
Thuy C. Nguyen, Tuan N. Tang, Nam LH. Phan, Chuong H. Nguyen, Masayuki Yamazaki, Masao Yamanaka

초록
비디오 인스턴스 세그멘테이션(VIS)은 탐지, 세그멘테이션, 추적을 동시에 수행하는 다중 작업 문제이다. 이미지 세트 응용 분야에서 확장된 비디오 데이터는 추가적으로 시간 정보를 포함하며, 적절히 처리될 경우 객체의 운동을 식별하고 예측하는 데 매우 유용하다. 본 연구에서는 이러한 작업들 간의 상호 학습을 가능하게 하는 통합 모델을 설계한다. 구체적으로, 인접 프레임 간 객체 인스턴스 마스크 간의 시간적 상관관계를 활용하기 위해, 시간적 상관 인스턴스 세그멘테이션(TCIS)과 양방향 추적(BiTrack)이라는 두 가지 모듈을 제안한다. 한편, 비디오 데이터는 프레임 간 겹침으로 인해 종종 중복되는 경향이 있다. 우리의 분석 결과, 이 문제는 YoutubeVOS-VIS2021 데이터셋에서尤为 심각함을 확인하였다. 따라서 데이터 부족 문제를 보완하기 위해 다중 소스 데이터(MSD) 학습 기법을 제안한다. 이러한 기법들을 다양한 기술적 트릭들과 결합함으로써, 기준 모델 대비 네트워크 성능이 크게 향상되었으며, YoutubeVOS-VIS 2019 및 2021 데이터셋에서 기존 방법들에 비해 상당한 성능 우위를 보였다.