11일 전
제로샷 비디오 객체 세그멘테이션을 위한 모션 주의 전이
Tianfei Zhou, Shunzhou Wang, Yi Zhou, Yazhou Yao, Jianwu Li, Ling Shao

초록
이 논문에서는 제로샷 비디오 객체 분할을 위한 새로운 모델인 운동 주의 전이 네트워크(Motion-Attentive Transition Network, MATNet)를 제안한다. 본 모델은 시공간적 객체 표현을 강화하기 위해 운동 정보를 효과적으로 활용하는 새로운 방식을 제시한다. 이는 이중 스트림 인코더 내부에 설계된 비대칭 주의 블록, 즉 운동 주의 전이(Motion-Attentive Transition, MAT)를 통해 각 합성곱 단계에서 외형 특징을 운동 주의 특징으로 변환함으로써 달성된다. 이러한 구조는 인코더 내부를 깊이 있게 상호 연결시켜, 객체의 운동과 외형 간에 계층적인 밀접한 상호작용을 가능하게 한다. 이는 전형적인 이중 스트림 아키텍처와 비교하여 우수한 성능을 발휘한다. 기존의 이중 스트림 구조는 각 스트림에서 운동과 외형 정보를 별도로 처리하는 경향이 있으며, 결과적으로 외형 정보에 과적합되는 문제가 발생한다. 또한, 다수준 인코더 특징에 대해 컴팩트하고 구별력 있으며 스케일에 민감한 표현을 얻기 위해 브리지 네트워크를 제안하였으며, 이를 디코더에 입력하여 최종 분할 결과를 도출한다. DAVIS-16, FBMS, Youtube-Objects 등 세 가지 도전적인 공개 벤치마크에서 실시한 광범위한 실험 결과에 따르면, 제안하는 모델은 기존 최고 성능 모델들과 비교하여 뛰어난 성능을 보였다.