11일 전
심층적으로 교차 연결된 이중 스트림 인코더를 활용한 언급 영상 세그멘테이션
Guang Feng, Lihe Zhang, Zhiwei Hu, Huchuan Lu

초록
언어 표현에 의해 설명된 동영상 객체를 분할하는 것을 목표로 하는 참조 동영상 분할은, 언어 정보와 시각 정보 간의 복잡한 상호작용을 효과적으로 모델링해야 하는 도전적인 과제이다. 본 연구에서는 이러한 과제를 해결하기 위해, CNN 기반 시각 특징과 Transformer 기반 언어 특징을 계층적으로 추출하는 이중 스트림 인코더를 설계한다. 또한, 다중 모달 특징의 계층적이고 점진적인 융합을 촉진하기 위해 인코더 내부에 여러 번 비전-언어 상호 안내(Vision-Language Mutual Guidance, VLMG) 모듈을 삽입한다. 기존의 다중 모달 융합 방법과 비교하여, 본 연구의 이중 스트림 인코더는 다중 해상도의 언어 맥락을 고려하며, VLMG를 통해 모달 간의 깊은 교차 융합을 실현한다. 또한, 프레임 간 시간적 정렬을 강화하기 위해 언어 지도형 다중 스케일 동적 필터링(Language-guided Multi-scale Dynamic Filtering, LMDF) 모듈을 제안한다. 이 모듈은 언어 지도형 공간-시간 특징을 활용하여, 현재 프레임의 특징을 더 유연하고 효과적으로 업데이트할 수 있는 위치별 동적 필터 세트를 생성한다. 네 가지 데이터셋에서 실시한 광범위한 실험을 통해 제안된 모델의 효과성이 입증되었다.