2달 전
TubeDETR: Transformer을 활용한 시공간 비디오 그라운딩
Yang, Antoine ; Miech, Antoine ; Sivic, Josef ; Laptev, Ivan ; Schmid, Cordelia

초록
우리는 주어진 텍스트 쿼리에 대응하는 비디오에서 시공간 튜브를 위치화하는 문제를 고려합니다. 이는 시간적, 공간적 및 다중 모달 상호작용을 공동으로 효율적으로 모델링해야 하는 어려운 과제입니다. 이러한 과제를 해결하기 위해, 우리는 최근 텍스트 조건부 객체 검출에 대한 이러한 모델들의 성공에서 영감을 얻은 Transformer 기반 아키텍처인 TubeDETR을 제안합니다. 우리의 모델은 특히 다음과 같은 구성 요소를 포함하고 있습니다: (i) 희소 샘플링된 프레임에서의 공간 다중 모달 상호작용을 모델링하는 효율적인 비디오 및 텍스트 인코더와 (ii) 시공간 위치화를 공동으로 수행하는 시공간 디코더입니다. 우리는 광범위한 절차 분석 연구(ablation study)를 통해 제안된 구성 요소들의 우위성을 입증합니다. 또한, 우리의 전체 접근 방식을 시공간 비디오 그라운딩 작업에서 평가하여 도전적인 VidSTG와 HC-STVG 벤치마크에서 기존 최신 연구(state of the art)보다 개선된 결과를 보여줍니다. 코드와 학습된 모델들은 https://antoyang.github.io/tubedetr.html 에서 공개적으로 이용할 수 있습니다.