3달 전
텍스트 기반 비디오 세그멘테이션을 위한 다중 모달 특징을 활용한 운동 모델링
Wangbo Zhao, Kai Wang, Xiangxiang Chu, Fuzhao Xue, Xinchao Wang, Yang You

초록
텍스트 기반 비디오 세그멘테이션은 설명 문장을 기반으로 비디오 내 타겟 객체를 분할하는 것을 목표로 한다. 기존 연구에서는 외관 정보와 언어 모달리티와 함께 광학 흐름 맵을 통한 운동 정보를 통합하는 것이 중요하지만, 대부분 간과되어 왔다. 본 논문에서는 정확한 세그멘테이션을 달성하기 위해 외관, 운동 및 언어 특징을 융합하고 정렬하는 방법을 제안한다. 구체적으로, 프레임 간 다중 모달 및 시계열 특징을 융합하고 집계할 수 있는 다중 모달 비디오 트랜스포머를 설계하였다. 또한, 언어 특징의 지시에 따라 각 특징 레벨에서 외관과 운동 특징을 점진적으로 융합하는 언어 지도형 특징 융합 모듈을 제안하였다. 마지막으로, 서로 다른 모달리티에서 유래한 특징 간 의미적 간극을 완화하기 위해 다중 모달 정렬 손실을 제안하였다. A2D Sentences 및 J-HMDB Sentences 데이터셋에서 실시한 광범위한 실험을 통해 제안한 방법이 최신 기술 대비 우수한 성능과 일반화 능력을 보임을 입증하였다.