11일 전
언어 쿼리 기반 비디오 액터 세그멘테이션을 위한 공동 공간-시간 모델링
Tianrui Hui, Shaofei Huang, Si Liu, Zihan Ding, Guanbin Li, Wenguan Wang, Jizhong Han, Fei Wang

초록
언어 쿼리 기반 비디오 액터 세그멘테이션은 자연어 쿼리에 의해 설명된 동작을 수행하는 액터의 픽셀 단위 마스크를 타겟 프레임에서 예측하는 것을 목표로 한다. 기존의 방법들은 타겟 프레임에 대한 혼합 공간-시간 특징을 추출하기 위해 비디오 클립에 3D CNN을 일반 인코더로 사용한다. 비록 3D 컨볼루션은 쿼리된 동작을 수행하는 액터를 인식하는 데 적합하지만, 동시에 인접 프레임으로부터 비정렬된 공간 정보를 불러오게 되어 타겟 프레임의 특징을 혼란스럽게 하고 정확한 세그멘테이션을 저해한다. 이를 해결하기 위해 우리는 비디오 클립에 대해 3D 시간 인코더를 적용하여 쿼리된 동작을 인식하고, 타겟 프레임에 대해 2D 공간 인코더를 사용하여 쿼리된 액터를 정확히 세그멘테이션할 수 있는 협업형 공간-시간 인코더-디코더 프레임워크를 제안한다. 디코더에서는 두 인코더로부터 얻은 공간적 및 시간적 특징을 유연하게 통합할 수 있도록 언어 유도 특징 선택(Language-Guided Feature Selection, LGFS) 모듈을 제안한다. 또한, 두 인코더의 각 단계에서 다모달 특징 상호작용을 위해 공간적 및 시간적 관련 언어 특징을 동적으로 재조합하는 크로스모달 적응 조절(Cross-Modal Adaptive Modulation, CMAM) 모듈을 도입한다. 제안한 방법은 이전 접근법보다 더 낮은 계산량으로 두 가지 주요 벤치마크에서 새로운 최고 성능을 달성하였다.