9일 전

장형 비디오 이해를 위한 텍스트 조건부 리샘플러

Bruno Korbar, Yongqin Xian, Alessio Tonioni, Andrew Zisserman, Federico Tombari
장형 비디오 이해를 위한 텍스트 조건부 리샘플러
초록

이 논문에서는 사전 훈련된 고정된 시각 인코더와 대규모 언어 모델(LLM)을 사용하여 긴 비디오 시퀀스를 처리하는 텍스트 조건부 비디오 리샘플러(TCR) 모듈을 제안한다. TCR은 텍스트 조건에 따라 비디오에서 관련 시각적 특징을 탐지하고, 이를 LLM에 제공하여 텍스트 응답을 생성한다. 경량 설계와 크로스 어텐션의 활용으로 인해 TCR은 최적화된 구현 없이도 일반 어텐션만으로 100프레임 이상을 동시에 처리할 수 있다. 본 연구의 주요 기여는 다음과 같다: (i) 작업 조건에 따라 긴 비디오를 처리할 수 있는 트랜스포머 기반 샘플링 아키텍처를 설계하였으며, 사전 훈련된 시각 모델과 언어 모델 간의 연결을 가능하게 하는 훈련 방법을 제안하였다; (ii) 더 긴 비디오 인식이 유리한 작업들을 식별하였다; (iii) NextQA, EgoSchema, 그리고 EGO4D-LTA 챌린지 등 다양한 평가 작업에서 TCR의 효과를 실험적으로 검증하였다.