17일 전
VITA: 객체 토큰 연관을 통한 비디오 인스턴스 세그멘테이션
Miran Heo, Sukjun Hwang, Seoung Wug Oh, Joon-Young Lee, Seon Joo Kim

초록
우리는 전체 시퀀스의 맥락을 이해하는 데 있어 명시적인 객체 지향 정보가 강력한 단서가 될 수 있다는 가정에 기반하여, 오프라인 영상 인스턴스 세그멘테이션(Offline Video Instance Segmentation, VIS)을 위한 새로운 패러다임을 제안한다. 이를 위해, 기존의 Transformer 기반 이미지 인스턴스 세그멘테이션 모델 위에 간단한 구조를 설계한 VITA를 제안한다. 구체적으로, 이미지 객체 탐지기를 활용하여 객체별 맥락 정보를 객체 토큰으로 추출한다. VITA는 시공간 백본 특징을 사용하지 않고, 프레임 수준의 객체 토큰 간의 연관성을 통해 영상 수준의 이해를 달성한다. 압축된 정보를 효과적으로 활용하여 객체 간 관계를 구축함으로써, ResNet-50 백본 기반으로 VIS 벤치마크에서 최신 기술 수준을 달성한다. YouTube-VIS 2019 및 2021에서 각각 49.8 AP, 45.7 AP를 기록하며, OVIS에서는 19.6 AP를 달성하였다. 더불어, 백본 특징과 분리된 객체 토큰 기반 구조 덕분에, 기존 오프라인 VIS 방법들이 탐구하지 못했던 여러 실용적 장점을 보여준다. 예를 들어, 일반 GPU에서 긴 영상 및 고해상도 영상을 처리할 수 있으며, 이미지 영역에서 학습된 프레임 수준의 탐지기를 고정(freeze)할 수 있다. 코드는 https://github.com/sukjunhwang/VITA 에서 공개되어 있다.