
대형 다중 모달 모델(Large Multimodal Models)의 비디오 질문-답변(Video Question-Answering) 작업에서 계산 및 메모리 제한을 해결하기 위해 최근 몇 가지 방법에서는 각 프레임당 텍스트 표현(예: 캡셔닝)을 추출하여 이를 대형 언어 모델(Large Language Model, LLM)에 입력하여 최종 응답을 생성합니다. 그러나 이러한 방식으로 LLM은 시각적 정보에 접근할 수 없으며, 종종 인접 프레임의 반복적인 텍스트 설명을 처리해야 합니다. 이러한 단점을 해결하기 위해 본 논문에서는 두 가지 모달, 즉 입력 프레임의 시각적 정보와 다른 프레임의 적절한 문맥을 제공하는 텍스트 설명을 통합하는 새로운 학습이 필요하지 않은 비디오 QA 프레임워크인 VidCtx를 소개합니다.구체적으로, 제안된 프레임워크에서는 사전 학습된 대형 다중 모달 모델(LMM)이 일정 간격으로 질문에 대한 인식이 있는 비디오 프레임의 텍스트 설명(captions)을 추출하도록 유도됩니다. 이들 설명은 a) 특정 프레임, b) 질문, c) 적절한 프레임의 문맥/캡션을 입력으로 주어질 때 같은 LMM이 해당 질문에 답변하도록 유도될 때 사용됩니다. 중복 정보를 피하기 위해 우리는 먼 거리의 프레임들의 설명을 문맥으로 선택했습니다. 마지막으로, 간단하면서도 효과적인 최대 풀링(max pooling) 메커니즘이 사용되어 프레임 레벨 결정들을 집계합니다. 이 방법론은 모델이 비디오의 관련 부분에 집중하고 많은 수의 프레임까지 확장할 수 있도록 합니다.실험 결과, VidCtx는 세 개의 공개 비디오 QA 벤치마크(NExT-QA, IntentQA, STAR)에서 오픈 모델에 의존하는 접근법들 사이에서 경쟁력 있는 성능을 보였습니다. 우리의 코드는 https://github.com/IDT-ITI/VidCtx에서 확인할 수 있습니다.