온라인 모델이 비디오 인스턴스 세그멘테이션에 있어 방어하기

최근 몇 년간 비디오 인스턴스 세그멘테이션(VIS)은 오프라인 모델을 중심으로 크게 발전해왔으나, 성능이 상대적으로 낮다는 이유로 온라인 모델은 점차 주목을 받지 못했다. 그러나 온라인 방법은 컴퓨팅 자원의 한계로 인해 오프라인 모델이 처리에 어려움을 겪는 긴 비디오 시퀀스나 지속적인 영상 처리 상황에서 본질적인 장점을 지닌다. 따라서 온라인 모델이 오프라인 모델과 비슷하거나 더 뛰어난 성능을 달성할 수 있다면 매우 바람직할 것이다. 현재의 온라인 및 오프라인 모델을 철저히 분석한 결과, 성능 격차의 주요 원인은 특징 공간에서 서로 다른 인스턴스 간의 유사한 외형으로 인해 프레임 간의 할당(association)이 오류를 유발한다는 점을 밝혀냈다. 이러한 관찰을 바탕으로, 더 구분력 있는 인스턴스 임베딩을 학습하여 할당을 안정적으로 수행하고, 과거 정보를 충분히 활용할 수 있도록 대조 학습(contrastive learning) 기반의 온라인 프레임워크를 제안한다. 단순함에도 불구하고, 제안한 방법은 세 가지 벤치마크에서 기존의 모든 온라인 및 오프라인 모델을 초월한다. 특히, YouTube-VIS 2019에서 49.5 AP를 달성하여 기존의 최고 온라인 모델보다 13.2 AP, 오프라인 모델보다 2.1 AP 향상시켰다. 또한, 혼잡도와 가림 현상이 심한 더 도전적인 OVIS 데이터셋에서는 30.2 AP를 기록하며 기존 최고 성능보다 14.8 AP 우수한 성능을 보였다. 제안한 방법은 CVPR2022에서 열린 제4회 대규모 비디오 객체 세그멘테이션 챌린지(4th Large-scale Video Object Segmentation Challenge)의 비디오 인스턴스 세그멘테이션 트랙에서 1위를 차지했다. 본 연구의 단순성과 효과성, 그리고 기존 모델에 대한 통찰이 VIS 모델의 발전 방향을 제시하는 데 기여하기를 기대한다.