2달 전

비디오 객체 분할을 위한 반복적 동적 임베딩

Mingxing Li; Li Hu; Zhiwei Xiong; Bang Zhang; Pan Pan; Dong Liu
비디오 객체 분할을 위한 반복적 동적 임베딩
초록

시공간 메모리(Space-time memory, STM) 기반 비디오 객체 분할(Video Object Segmentation, VOS) 네트워크는 일반적으로 몇 프레임마다 메모리 뱅크를 점진적으로 확장하여 우수한 성능을 보여줍니다. 그러나 1) 비디오 길이가 증가함에 따라 하드웨어가 지속적으로 증가하는 메모리 요구 사항을 감당할 수 없습니다. 2) 많은 정보를 저장하면 불가피하게 많은 노이즈가 발생하여 메모리 뱅크에서 가장 중요한 정보를 읽는 데 불리합니다. 본 논문에서는 일정 크기의 메모리 뱅크를 구축하기 위해 반복 동적 임베딩(Recurrent Dynamic Embedding, RDE)을 제안합니다. 특히, 제안된 시공간 집계 모듈(Spatio-temporal Aggregation Module, SAM)을 통해 RDE를 명시적으로 생성하고 업데이트하며, 이 모듈은 역사적인 정보의 힌트를 활용합니다. SAM의 반복 사용으로 인한 오류 누적을 피하기 위해, 훈련 단계에서 편향되지 않은 안내 손실(unbiased guidance loss)을 제안하여 장시간 비디오에서 SAM의 견고성을 개선하였습니다. 또한, 메모리 뱅크에 저장된 예측 마스크는 네트워크 추론의 부정확성으로 인해 부정확하여 쿼리 프레임의 분할에 영향을 미칩니다. 이 문제를 해결하기 위해, 다양한 품질의 마스크 임베딩을 메모리 뱅크에서 수정할 수 있는 새로운 자기 교정 전략(self-correction strategy)을 설계하였습니다. 광범위한 실험 결과, 우리의 방법은 성능과 속도 사이에서 최상의 균형을 이루는 것으로 나타났습니다. 코드는 https://github.com/Limingxing00/RDE-VOS-CVPR2022 에서 확인 가능합니다.

비디오 객체 분할을 위한 반복적 동적 임베딩 | 최신 연구 논문 | HyperAI초신경