2달 전
NOVIS: End-to-End 근접 온라인 비디오 인스턴스 분할의 사례
Tim Meinhardt; Matt Feiszli; Yuchen Fan; Laura Leal-Taixe; Rakesh Ranjan

초록
최근까지 비디오 인스턴스 세그멘테이션(VIS) 커뮤니티는 오프라인 방법이 일반적으로 프레임 단위 온라인 처리보다 우수하다는 공통된 인식을 가지고 있었습니다. 그러나 최근 온라인 방법의 성공은 특히 도전적이고 긴 비디오 시퀀스에 대해 이러한 인식을 의심하게 만들고 있습니다. 우리는 이 연구를 최근의 이러한 관찰에 대한 반박으로 이해하며, 커뮤니티가 전용 근접 온라인 VIS 접근 방식에 집중할 것을 촉구합니다. 우리의 주장을 뒷받침하기 위해, 다양한 처리 패러다임에 대한 상세 분석과 새로운 엔드투엔드 학습 가능한 NOVIS (Near-Online Video Instance Segmentation) 방법을 제시합니다. 트랜스포머 기반 모델은 프레임 클립의 시공간 마스크 볼륨을 직접 예측하고, 오버랩 임베딩을 통해 클립 간 인스턴스 추적을 수행합니다. NOVIS는 어떤 수작업 추적 휴리스틱도 피하는 첫 번째 근접 온라인 VIS 접근 방식입니다. 우리는 모든 기존 VIS 방법들을 크게 능가하며, YouTube-VIS (2019/2021) 및 OVIS 벤치마크에서 새로운 최신 결과를 제공합니다.