11일 전

STEm-Seg: 영상에서 인스턴스 세그멘테이션을 위한 공간-시간 임베딩

Ali Athar, Sabarinath Mahadevan, Aljoša Ošep, Laura Leal-Taixé, Bastian Leibe
STEm-Seg: 영상에서 인스턴스 세그멘테이션을 위한 공간-시간 임베딩
초록

비디오 내 인스턴스 세그멘테이션을 위한 기존 방법들은 일반적으로 탐지 기반 추적(Tracking-by-detection) 패러다임을 따르는 다단계 파이프라인을 사용하며, 비디오 클립을 이미지 시퀀스로 모델링한다. 이러한 방법들은 각 프레임 내에서 객체를 탐지하기 위해 여러 네트워크를 활용하고, 시간에 따라 탐지 결과를 연결하는 방식을 채택한다. 따라서 이러한 접근 방식은 종종 엔드투엔드 학습이 불가능하며 특정 작업에 매우 특화되어 있다. 본 논문에서는 비디오 내 인스턴스 세그멘테이션과 관련된 다양한 작업에 적합한 새로운 접근 방식을 제안한다. 특히, 비디오 클립을 단일 3차원 공간-시간 볼륨으로 모델링하고, 단일 단계에서 공간과 시간에 걸쳐 인스턴스를 세그멘테이션하고 추적하는 새로운 방법을 제안한다. 본 연구의 문제 설정은 전체 비디오 클립에 걸쳐 특정 객체 인스턴스에 속하는 픽셀들을 군집화할 수 있도록 학습되는 공간-시간 임베딩(spatio-temporal embeddings)에 기반한다. 이를 위해 (i) 공간-시간 임베딩의 특징 표현을 향상시키는 새로운 혼합 함수(mixing functions)를 도입하고, (ii) 시간적 맥락을 추론할 수 있는 단일 단계, 프로포절 없는 네트워크를 제안한다. 본 네트워크는 엔드투엔드로 학습되어 공간-시간 임베딩과 이러한 임베딩을 군집화하는 데 필요한 파라미터를 동시에 학습하므로 추론 과정이 간소화된다. 제안한 방법은 다양한 데이터셋과 작업에서 최신 기술 수준의 성능을 달성하였다. 코드와 모델은 https://github.com/sabarim/STEm-Seg 에서 공개되어 있다.

STEm-Seg: 영상에서 인스턴스 세그멘테이션을 위한 공간-시간 임베딩 | 최신 연구 논문 | HyperAI초신경