고품질 비디오 인스턴스 세그멘테이션을 위한 비디오 마스크 전이기

비디오 인스턴스 세그멘테이션(VIS)은 최근 급속한 발전을 보였지만, 현재의 접근 방식은 정확한 경계 세부 정보를 갖춘 고품질 마스크를 예측하는 데 어려움을 겪고 있다. 더불어 예측된 세그멘테이션 결과가 시간에 따라 불안정하게 변하는 경향이 있으며, 이는 시계열 일관성 정보가 간과되거나 충분히 활용되지 않았음을 시사한다. 본 논문에서는 이러한 문제를 해결함으로써 VIS에서 더 세밀하고 시계열적으로 안정적인 마스크 예측을 달성하고자 한다. 먼저, 매우 효율적인 비디오 트랜스포머 구조를 통해 세부적인 고해상도 특징을 활용할 수 있는 비디오 마스크 트랜스파이너(VMT) 방법을 제안한다. VMT는 비디오 세그먼트 내 각 트랙렛의 희소한 오류 발생 가능성이 높은 시공간 영역을 탐지하고 그룹화한 후, 국소적 및 인스턴스 수준의 정보를 활용해 이를 정밀하게 보정한다. 두 번째로, 유명한 YouTube-VIS 데이터셋의 거친 경계 레이블이 주요한 제한 요인임을 지적한다. 본 논문의 VMT 아키텍처를 기반으로, 반복적 훈련과 자기 보정을 통한 자동 레이블 정제 기법을 설계하였다. VIS에서 고품질 마스크 예측을 평가할 수 있도록, 수동으로 재레이블링된 테스트 세트와 자동으로 정제된 훈련 데이터로 구성된 HQ-YTVIS 데이터셋을 제안한다. 제안한 VMT는 HQ-YTVIS를 비롯해 YouTube-VIS, OVIS, BDD100K MOTS와 같은 주요 벤치마크에서 최신 최고 성능(SOTA) 방법들과 비교 평가되었다. 실험 결과는 복잡하고 동적인 객체를 세분화하는 데 있어 본 방법의 효과성과 실용성을 명확히 입증하며, 정밀한 세부 정보를 효과적으로 포착함을 보여준다.