2달 전

다중 소스 융합 및 제로샷 비디오 객체 분할을 위한 자동 예측기 선택

Xiaoqi Zhao; Youwei Pang; Jiaxing Yang; Lihe Zhang; Huchuan Lu
다중 소스 융합 및 제로샷 비디오 객체 분할을 위한 자동 예측기 선택
초록

위치와 외관은 비디오 객체 분할의 핵심 단서입니다. RGB, 깊이, 광학 흐름 및 정적 주요성과 같은 여러 소스가 객체에 대한 유용한 정보를 제공할 수 있습니다. 그러나 기존 접근 방식은 RGB 또는 RGB와 광학 흐름만을 활용합니다. 본 논문에서는 제로샷 비디오 객체 분할을 위한 새로운 다중 소스 융합 네트워크를 제안합니다. 내부 감각 공간 주의 모듈(Interoceptive Spatial Attention Module, ISAM)의 도움으로 각 소스의 공간적 중요성이 강조됩니다. 또한, 소스 간 호환되지 않는 특성을 필터링하기 위해 특성 정제 모듈(Feature Purification Module, FPM)을 설계하였습니다. ISAM과 FPM을 통해 다중 소스 특성이 효과적으로 융합됩니다. 더불어, 저품질 광학 흐름 맵으로 인한 실패 결과에 대한 과도한 의존성을 방지하기 위해 정적 주요성 예측기 또는 이동 객체 예측기 중 더 나은 예측을 선택하는 자동 예측기 선택 네트워크(Automatic Predictor Selection Network, APS)를 제시합니다. DAVIS$_{16}$, Youtube-Objects 및 FBMS와 같은 세 가지 어려운 공개 벤치마크에서 수행된 광범위한 실험 결과, 제안된 모델이 최신 연구 성과들에 대해 우수한 성능을 보임을 확인하였습니다. 소스 코드는 \textcolor{red}{\url{https://github.com/Xiaoqi-Zhao-DLUT/Multi-Source-APS-ZVOS}}에서 공개될 예정입니다.

다중 소스 융합 및 제로샷 비디오 객체 분할을 위한 자동 예측기 선택 | 최신 연구 논문 | HyperAI초신경