2달 전

BATMAN: 동작-외관 이웃 공간에서의 양방향 주목력 변환기 모델을 이용한 비디오 객체 분할

Ye Yu; Jialin Yuan; Gaurav Mittal; Li Fuxin; Mei Chen
BATMAN: 동작-외관 이웃 공간에서의 양방향 주목력 변환기 모델을 이용한 비디오 객체 분할
초록

비디오 객체 분할(VOS)은 비디오 이해의 기초적인 요소입니다. 트랜스포머 기반 방법론은 반감독 VOS에서 상당한 성능 향상을 보여주고 있습니다. 그러나, 기존 연구는 서로 가까이 위치한 시각적으로 유사한 객체들을 분할하는 데 어려움을 겪고 있습니다. 본 논문에서는 반감독 VOS를 위한 새로운 이중 주의 트랜스포머 모션-외관 인접 공간(BATMAN)을 제안합니다. 이 모델은 새로운 광학 유동 교정 모듈을 통해 비디오 내 객체의 움직임을 포착하여, 분할 마스크와 광학 유동 추정을 융합하여 객체 내부의 광학 유동 평활성을 개선하고 객체 경계에서 발생하는 노이즈를 줄입니다. 이러한 교정된 광학 유동은 이후에 제안된 이중 주의 메커니즘에서 사용되며, 쿼리 프레임과 참조 프레임 간의 대응 관계를 움직임과 외관을 모두 고려한 인접 이중 공간에서 계산합니다. 다양한 실험을 통해 BATMAN 아키텍처의 효과성이 검증되었으며, 네 가지 주요 VOS 벤치마크(Youtube-VOS 2019, Youtube-VOS 2018, DAVIS 2017 Val/Testdev, DAVIS 2016)에서 모든 기존 최신 연구보다 우수한 성능을 보였습니다(85.0%, 85.3%, 86.2%/82.2%, 92.5%).

BATMAN: 동작-외관 이웃 공간에서의 양방향 주목력 변환기 모델을 이용한 비디오 객체 분할 | 최신 연구 논문 | HyperAI초신경