2달 전

Zero-shot Video Object Segmentation을 위한 적응형 다중 소스 예측기

Xiaoqi Zhao; Shijie Chang; Youwei Pang; Jiaxing Yang; Lihe Zhang; Huchuan Lu
Zero-shot Video Object Segmentation을 위한 적응형 다중 소스 예측기
초록

실시간 비디오에서 정적 객체와 움직이는 객체가 자주 발생합니다. 대부분의 비디오 객체 분할 방법은 움직이는 객체를 인식하기 위해 운동 정보를 추출하고 활용하는 데만 초점을 맞춥니다. 그러나 정적 객체의 프레임을 처리할 때, 불확실한 운동 정보(예: 저품질 광학 유량 맵)로 인해 움직이는 객체 예측기가 실패한 결과를 예측할 수 있습니다. 또한, RGB, 깊이, 광학 유량 및 정적 주요성과 같은 다양한 소스는 객체에 대한 유용한 정보를 제공할 수 있습니다. 그러나 기존 접근 방식은 RGB 또는 RGB와 광학 유량만 고려합니다.본 논문에서는 제로샷 비디오 객체 분할(ZVOS)을 위한 새로운 적응형 다중 소스 예측기(Adaptive Multi-Source Predictor)를 제안합니다. 정적 객체 예측기에서는 RGB 소스가 동시에 깊이와 정적 주요성 소스로 변환됩니다. 움직이는 객체 예측기에서는 다중 소스 융합 구조를 제안합니다. 첫째, 내부 감각 공간 주의 모듈(Interoceptive Spatial Attention Module, ISAM)의 도움으로 각 소스의 공간 중요성이 강조됩니다. 둘째, 순수한 전경 운동 주의를 생성하여 디코더에서 정적 및 움직이는 특징의 표현을 개선하기 위해 운동 향상 모듈(Motion-Enhanced Module, MEM)이 설계되었습니다. 또한, 소스 간 호환되지 않는 특징을 필터링하기 위해 특징 정화 모듈(Feature Purification Module, FPM)을 설계했습니다. ISAM, MEM 및 FPM을 사용함으로써 다중 소스 특징이 효과적으로 융합됩니다.또한, 우리는 적응형 예측기 융합 네트워크(Adaptive Predictor Fusion Network, APF)를 제시하여 광학 유량 맵의 품질을 평가하고 정적 객체 예측기와 움직이는 객체 예측기로부터 얻은 예측 결과를 융합하여 저품질 광학 유량 맵으로 인한 과도한 의존성을 방지합니다. 실험 결과 본 연구에서 제안된 모델은 세 가지 어려운 ZVOS 벤치마크에서 최신 방법들을 능가하는 것으로 나타났습니다. 그리고 정적 객체 예측기는 동시에 고품질의 깊이 맵과 정적 주요성 맵을 정확히 예측하였습니다.

Zero-shot Video Object Segmentation을 위한 적응형 다중 소스 예측기 | 최신 연구 논문 | HyperAI초신경