이미지-텍스트 모델에서 효율적인 비디오 질의응답을 위한 자기적응형 샘플링

비디오 질문-응답은 비디오 이해 분야에서 핵심적인 과제이다. 현재의 시각-언어 모델(VLM) 중 비디오 트랜스포머(Video Transformer)를 탑재한 모델들은 시계열 모델링을 가능하게 하여 뛰어난 성능을 달성하고 있으나, 이는 막대한 계산 자원을 요구하므로 실시간 응용 환경에 배포하기에는 너무 비용이 크다. 경제적인 대안으로, 일부 모델은 비디오의 주요 내용을 대표할 수 있는 프레임의 소수만을 샘플링하여 이미지-텍스트 모델을 해당 샘플 프레임에 맞게 조정하는 방식을 사용한다. 그러나 최근의 비디오 이해 모델들은 시각적 콘텐츠 간의 내부 상관관계나 질문에 대한 관련성과 무관하게 랜덤하게 프레임 또는 클립을 샘플링하는 경우가 대부분이다. 본 연구에서는 이러한 무계획적인 샘플링이 정답을 도출할 수 있는 핵심 프레임을 누락시킬 수 있으며, 특히 비디오 길이가 길어질수록 샘플링의 희소성이 증가함에 따라 이 문제는 더욱 악화된다고 주장한다. 이러한 문제를 완화하기 위해, 주어진 질문에 가장 중요할 가능성이 높은 프레임을 최대한 보존하는 두 가지 프레임 샘플링 전략인 '가장 도메인 프레임(Most Domain Frames, MDF)'과 '가장 함의 프레임(Most Implicated Frames, MIF)'을 제안한다. MDF는 부트스트랩 방식으로 핵심 프레임 누락 위험을 능동적으로 최소화하는 반면, MIF는 보조 모델의 도움을 받아 각 비디오-질문 쌍에 맞춰 핵심 프레임을 능동적으로 탐색한다. CLIP, GIT, All-in-one 등 세 가지 고성능 VLM을 사용한 세 개의 공개 데이터셋에서 수행한 실험 결과는, 제안된 전략이 이미지-텍스트 사전 학습 모델의 성능을 향상시킬 수 있음을 입증한다. 본 논문에서 제안한 방법의 소스 코드는 공개되어 있으며, 다음 링크에서 확인할 수 있다: https://github.com/declare-lab/sas-vqa.