MATNet: 제로샷 비디오 객체 분할을 위한 운동 주의 전이 네트워크
본 논문에서는 제로샷 비디오 객체 분할(ZVOS)을 위한 새로운 엔드 투 엔드 학습 신경망인 MATNet을 제안한다. 인간의 시각 주의 행동에 착안하여, MATNet은 움직임 신호를 하향식 신호로 활용하여 객체의 외형 인식을 안내한다. 이를 위해 이중 스트림 인코더 네트워크 내부에 비대칭 주의 블록인 '움직임 주의 전이(Motion-Attentive Transition, MAT)'를 제안함으로써, 먼저 움직이는 영역을 식별하고, 이후 외형 학습에 주의를 기울여 객체의 전체 영역을 포착한다. 다양한 합성곱 층에 MAT를 배치함으로써 인코더는 깊이 있는 계층적 상호작용을 가능하게 하여, 객체 외형과 움직임 간의 밀접한 상호작용을 실현한다. 이러한 생물학적으로 영감을 받은 설계는 전통적인 이중 스트림 구조(움직임과 외형을 별도의 스트림에서 독립적으로 처리하는 구조)보다 우수한 성능을 보이며, 후자의 경우 객체 외형에 과적합되는 문제가 빈번하게 발생한다. 또한, 다중 스케일 시공간 특징을 더 컴팩트하고 구분력 있으며 스케일 민감한 표현으로 조절하기 위해 브리지 네트워크를 도입하였으며, 이를 경계 인식 디코더 네트워크에 공급하여 선명한 경계를 갖는 정확한 분할 결과를 생성한다. 제안된 방법은 DAVIS16, DAVIS17, FBMS, YouTube-Objects 등 네 가지 도전적인 공개 벤치마크에서 광범위한 정량적 및 정성적 실험을 수행하였으며, 현재 최고 수준의 ZVOS 기법들과 비교해도 뛰어난 성능을 입증하였다. 또한, 제안한 시공간 학습 프레임워크의 일반화 능력을 추가로 입증하기 위해, MATNet을 다른 관련 작업인 동적 시각 주의 예측(DVAP)에 확장하였다. Hollywood-2 및 UCF-Sports와 같은 두 가지 인기 있는 데이터셋에서 수행한 실험을 통해 본 모델의 우수성이 추가로 검증되었다.