2달 전
SSTVOS: 희소 시공간 트랜스포머를 이용한 비디오 객체 분할
Brendan Duke; Abdalla Ahmed; Christian Wolf; Parham Aarabi; Graham W. Taylor

초록
본 논문에서는 비디오 객체 분할(VOS)을 위한 트랜스포머 기반 접근법을 소개합니다. 이전 연구의 복합 오류와 확장성 문제를 해결하기 위해, 우리는 스칼라 스페이스타임 트랜스포머(Sparse Spatiotemporal Transformers, SST)라고 하는 확장 가능하고 엔드투엔드 방식의 VOS 방법을 제안합니다. SST는 비디오 내 각 객체에 대한 픽셀 단위 표현을 시공간 특징에 대한 희소 주의(sparse attention)를 사용하여 추출합니다. 우리의 주의 기반 VOS 공식화는 모델이 여러 프레임의 역사에 주목하도록 학습할 수 있게 하며, 동작 분할을 해결하기 위한 필수적인 대응 관계(correspondence-like) 계산을 수행하는 데 적합한 귀납적 편향(inductive bias)을 제공합니다. 우리는 시공간 영역에서 주의 기반 접근법이 순환 신경망(recurrent networks)보다 우월함을 입증합니다. 본 방법은 YouTube-VOS 및 DAVIS 2017 데이터셋에서 경쟁력 있는 결과를 달성하며, 최신 연구와 비교해 확장성과 가림(occlusions)에 대한 강건성이 개선되었습니다. 코드는 https://github.com/dukebw/SSTVOS에서 이용 가능합니다.