
효율적인 비디오-언어 모델링은 비디오 프레임의 수가 매우 많고 때로는 다루기 어려울 정도로 증가함에 따라 계산 비용을 고려해야 한다. 주의 메커니즘(attention mechanism)과 같은 파라미터 기반 접근 방식은 비디오 길이가 증가함에 따라 계산 비용이 제곱적으로 증가하기 때문에 이상적이지 않을 수 있다. 대신 기존 연구들은 짧은 비디오 클립에서의 다중모달 모델링에 집중하며, 오프라인 특징 추출이나 프레임 샘플링을 통해 비디오를 효율적으로 표현하는 방식에 의존해왔다. 본 논문에서는 긴 비정형 비디오(long untrimmed videos)를 대상으로 확장 가능한 비디오-언어 모델링을 위한 새로운 관점으로, 반파라미터형 비디오 기반 텍스트 생성 모델인 SeViT을 제안한다. SeViT은 비디오를 외부 데이터 저장소로 간주하며, 주어진 질의(query)에 대해 저장소에서 관련성이 높은 몇몇 프레임을 비파라미터형 프레임 검색기(frame retriever)를 통해 선택하고, 이후 라이트 퓨전(late fusion) 방법을 통해 질의와 함께 프레임을 효과적으로 통합하는 파라미터형 생성기(generator)를 포함한다. 실험 결과, 본 방법은 긴 비디오 및 인과적 비디오 이해(casual video understanding)에서 두드러진 우수성을 보였다. 또한, 네 가지 비디오-언어 데이터셋에서 최신 기준(SOTA)을 달성하였으며, iVQA(+4.8), Next-QA(+6.9), ActivityNet-QA(+4.8)에서 정확도 측면에서, 그리고 MSRVTT-Caption(+3.6)에서 CIDEr 점수 측면에서 새로운 최고 성능을 기록하였다.