2달 전
TESTA: 시간-공간 토큰 집계를 이용한 장형 비디오-언어 이해
Shuhuai Ren; Sishuo Chen; Shicheng Li; Xu Sun; Lu Hou

초록
대규모 비디오-언어 사전 학습은 비디오-언어 이해 작업에서 뛰어난 발전을 이루어냈습니다. 그러나 특히 장편 비디오의 경우, 비디오 인코딩에 따른 중량적인 계산 부담이 여전히 효율성의 큰 병목 요인으로 남아 있습니다. 이러한 비디오는 본질적으로 3D 속성을 가지고 있으며 시공간적 중복성이 많기 때문에 복잡한 시간적 및 공간적 관계를 포착하는 것이 어렵습니다. 이 문제를 해결하기 위해 우리는 유사한 프레임과 각 프레임 내의 유사한 패치를 적응적으로 집계하여 비디오 의미를 압축하는 효율적인 방법인 시간-공간 토큰 집계(TESTA, TEmporal-Spatial Token Aggregation)를 제안합니다. TESTA는 시각 토큰 수를 75% 줄일 수 있으므로 비디오 인코딩을 가속화할 수 있습니다. TESTA를 기반으로 하여, 우리는 각 비디오 인코더 블록에 분할된 시공간 토큰 집계 모듈을 탑재한 사전 학습된 비디오-언어 모델을 소개합니다. 우리는 이 모델을 단락-비디오 검색 및 장편 VideoQA 작업에 대한 다섯 개의 데이터셋에서 평가했습니다. 실험 결과, TESTA는 계산 효율성을 1.7배 향상시키고, 더 긴 입력 프레임 처리 능력의 확장성 덕분에 성능이 크게 향상됨을 보였습니다. 예를 들어, QuerYD에서는 +13.7 R@1, Condensed Movie에서는 +6.5 R@1의 성능 향상을 달성했습니다.