
초록
비디오-텍스트 트랜스포머는 프레임 간의 시간적 관계를 모델링하는 데 학습할까요? 그들의 막대한 용량과 다중 모달 훈련 데이터의 풍부함에도 불구하고, 최근 연구에서는 비디오-텍스트 모델이 프레임 기반 공간 표현에 강한 경향을 보이는 반면, 시간적 추론은 대부분 해결되지 않았다는 점을 밝혔습니다. 본 연구에서는 비디오-텍스트 트랜스포머의 시간 학습에서 몇 가지 주요 과제를 식별하였습니다: 제한된 네트워크 크기로 인한 시공간 균형 조절 문제; 다중 프레임 모델링을 위한 차원의 저주; 클립 길이를 확장함으로써 의미 정보의 감소 효과입니다. 이러한 결과에 따라, 우리는 SViTT(스PARSE 비디오-텍스트 아키텍처)를 제안합니다. 이는 밀집된 어텐션을 사용하는 단순 트랜스포머보다 상당히 낮은 비용으로 다중 프레임 추론을 수행합니다. 그래프 기반 네트워크와 유사하게, SViTT는 두 가지 형태의 희소성을 사용합니다: 셀프 어텐션에서 토큰 간의 쿼리-키 통신을 제한하는 엣지 희소성(edge sparsity)과 무의미한 시각 토큰을 버리는 노드 희소성(node sparsity)입니다. 클립 길이가 증가함에 따라 모델의 희소성이 점진적으로 증가하도록 설계된 커리큘럼으로 훈련된 SViTT는 여러 비디오-텍스트 검색 및 질문 응답 벤치마크에서 밀집된 트랜스포머 기준모델들을 능가하며, 계산 비용은 크게 줄였습니다. 프로젝트 페이지: http://svcl.ucsd.edu/projects/svitt.