11일 전
참조 표현에서 비디오 객체 분할을 위한 계층적 상호작용 네트워크
{Philip Torr, Hengshuang Zhao, Luca Bertinetto, Yansong Tang, Zhao Yang}

초록
본 논문에서는 언어적 표현에 기반한 영상 객체 분할(VOSRE) 문제를 탐구한다. 기존의 방법들은 일반적으로 시각 인코더의 최상위 층에서 추출한 시각적 특징과 언어적 특징을 기반으로 다중 모달 융합을 수행하는데, 이는 모델이 다양한 의미적 및 공간적 세부 수준에서 다중 모달 입력을 표현하는 능력을 제한한다. 이러한 문제를 해결하기 위해, 본 연구에서는 VOSRE 문제를 위한 엔드투엔드 계층적 상호작용 네트워크(HINet)를 제안한다. 제안한 모델은 시각 인코더가 생성하는 특징 피라미드를 활용하여 다수의 계층적 다중 모달 특징을 생성함으로써, 다양한 수준의 다중 모달 특징 내에서 객체 속성, 카테고리와 같은 다양한 언어적 개념을 더 유연하게 표현할 수 있다. 또한, 광학 흐름 입력에서 움직이는 객체의 신호를 추가로 추출하고, 이를 운동 게이팅 메커니즘을 통해 참조 대상 강조 및 배경 억제를 위한 보완적 단서로 활용한다. 기존 방법들과 달리, 본 전략은 전체 영상을 입력으로 요구하지 않고 온라인 예측을 가능하게 한다. 단순한 구조임에도 불구하고, 제안한 HINet은 DAVIS-16, DAVIS-17, J-HMDB 데이터셋에서 기존 최고 성능 모델을 초월하며, 그 효과성과 일반화 능력을 입증한다.