CTVIS: 온라인 비디오 인스턴스 세그멘테이션을 위한 일관된 훈련

인스턴스 임베딩의 구분은 온라인 비디오 인스턴스 세그멘테이션(VIS)에서 시간에 걸쳐 인스턴스를 연결하는 데 핵심적인 역할을 한다. 인스턴스 임베딩 학습은 대조 항목(Contrastive Items, CIs)을 기반으로 계산된 대조 손실(contrastive loss)에 의해 직접적으로 감독되며, CIs는 기준(anchor)/양성(positive)/음성(negative) 임베딩의 집합으로 구성된다. 최근의 온라인 VIS 방법들은 오직 하나의 참조 프레임에서 추출한 CIs만을 활용하고 있는데, 본 연구에서는 이러한 접근이 매우 구분력 있는 임베딩을 학습하는 데에는 부족하다고 주장한다. 직관적으로 CIs를 향상시키는 전략으로, 학습 단계에서 추론 단계를 반복하는 방식이 가능하다. 이를 위해 우리는 CIs 구성 측면에서 학습과 추론 파이프라인을 일치시키는 것을 목표로 하는 간단하면서도 효과적인 학습 전략인 일관된 온라인 VIS 학습(Consistent Training for Online VIS, CTVIS)을 제안한다. 구체적으로 CTVIS는 모멘텀 평균화된 임베딩과 메모리 백업 저장 메커니즘을 참조하여 CIs를 구성하고, 관련 임베딩에 노이즈를 추가함으로써 안정적인 역사적 인스턴스 표현과 현재 인스턴스 임베딩 간의 신뢰할 수 있는 비교를 가능하게 한다. 이러한 기법은 가림, 재식별, 변형과 같은 VIS의 주요 도전 과제를 효과적으로 모델링할 수 있는 이점을 제공한다. 실험적으로 CTVIS는 YTVIS19(55.1% AP), YTVIS21(50.1% AP), OVIS(35.5% AP) 세 가지 VIS 벤치마크에서 기존 최고 성능(SOTA) 모델을 최대 +5.0점 이상 상회하며 우수한 성능을 보였다. 더불어, 이미지에서 변환된 가상 비디오(pseudo-videos)를 활용한 학습이 완전히 감독된 모델을 초월하는 강력한 모델을 학습할 수 있음을 발견하였다.