
초록
본 논문에서는 Context-Aware Video Instance Segmentation (CAVIS)라는 새로운 프레임워크를 소개합니다. 이 프레임워크는 각 객체 주변의 맥락 정보를 통합하여 인스턴스 연관성을 향상시키는 것을 목표로 설계되었습니다. 이러한 정보를 효율적으로 추출하고 활용하기 위해, 우리는 Context-Aware Instance Tracker (CAIT)를 제안합니다. CAIT는 인스턴스 주변의 맥락 데이터와 핵심 인스턴스 특성을 결합하여 추적 정확도를 개선합니다. 또한, 프레임 간 객체 수준의 특성 일관성을 보장하여 인스턴스 매칭 정확도를 크게 향상시키는 Prototypical Cross-frame Contrastive (PCC) 손실 함수를 도입하였습니다. CAVIS는 비디오 인스턴스 분할(VIS) 및 비디오 팬옵틱 분할(VPS) 벤치마크 데이터셋에서 기존 최신 방법론보다 우수한 성능을 보입니다. 특히, 어려운 비디오로 알려진 OVIS 데이터셋에서 우리의 방법론은 뛰어난 성능을 발휘하였습니다.