DVIS: 분리된 비디오 인스턴스 세그멘테이션 프레임워크

비디오 인스턴스 세그멘테이션(VIS)은 자율 주행 및 비디오 편집 등 다양한 응용 분야에서 중요한 작업입니다. 기존 방법들은 실제 세계의 복잡하고 긴 비디오에서 성능이 부족한 경우가 많으며, 이는 주로 두 가지 요인에 의해 발생합니다. 첫째, 오프라인 방법들은 모든 프레임을 동등하게 취급하고 인접 프레임 간의 상호 의존성을 무시하는 밀접 결합 모델링 패러다임에 제약을 받습니다. 결과적으로, 장기 시간 정렬 과정에서 과도한 노이즈가 도입됩니다. 둘째, 온라인 방법들은 시간 정보를 충분히 활용하지 못합니다. 이러한 문제들을 해결하기 위해, VIS를 세그멘테이션, 추적, 그리고 개선이라는 세 개의 독립적인 하위 작업으로 나누는 분리 전략을 제안합니다. 분리 전략의 효과성은 두 가지 핵심 요소에 달려 있습니다: 1) 추적 과정에서 프레임별 연관성을 통해 정확한 장기 시간 정렬 결과를 얻고, 2) 개선 과정에서 앞서 언급된 정확한 정렬 결과를 바탕으로 시간 정보를 효과적으로 활용합니다. 우리는 새로운 참조 추적기와 시간 개선기를 소개하여 \textbf{D}ecoupled \textbf{VIS} 프레임워크(\textbf{DVIS})를 구축하였습니다. DVIS는 VIS와 VPS 모두에서 새로운 최고 수준의 성능(SOTA)을 달성하며, OVIS 및 VIPSeg 데이터셋에서 현재 최고 수준의 방법들을 각각 7.3 AP와 9.6 VPQ로 능가하였습니다. 이 데이터셋들은 가장 어려우면서도 현실적인 벤치마크입니다. 또한 분리 전략 덕분에 참조 추적기와 시간 개선기는 매우 경량화되어(세그멘터 FLOPs의 1.69%만 차지), 단일 GPU(11G 메모리)에서도 효율적인 학습과 추론이 가능합니다. 코드는 \href{https://github.com/zhang-tao-whu/DVIS}{https://github.com/zhang-tao-whu/DVIS}에서 확인할 수 있습니다.