이미지 그리드는 비디오만큼 가치가 있을 수 있다: VLM을 사용한 제로샷 비디오 질문 응답

최근의 대형 언어 모델(Large Language Models, LLMs)의 고도화된 추론 능력에 자극받아, 비디오 모달리티를 연결하기 위한 다양한 전략이 개발되었습니다. 주목할 만한 전략 중 하나는 비디오 언어 모델(Video Language Models, VideoLMs)을 사용하는 것으로, 이는 비디오 데이터와 고급 시각 인코더를 LLMs와 연결시키기 위해 학습 가능한 인터페이스를 훈련시킵니다. 최근에는 여러 단계에서 이러한 기초 모델들을 활용하는 대안적인 전략이 등장했습니다. 본 연구에서는 단일 시각 언어 모델(Vision Language Model, VLM)만을 사용하는 간단하면서도 혁신적인 전략을 소개합니다. 우리의 출발점은 비디오가 시간 정보와 결합된 일련의 이미지 또는 프레임으로 구성되어 있다는 기본적인 통찰입니다. 비디오 이해의 핵심은 각 프레임의 공간적 세부 정보와 함께 시간적 측면을 효과적으로 관리하는 데 있습니다. 초기 단계에서는 여러 프레임을 격자 형태로 배치하여 단일 복합 이미지로 변환합니다. 이렇게 생성된 단일 이미지는 이미지 격자(image grid)라고 합니다. 이 형식은 단일 이미지처럼 보이면서도 격자 구조 내에 시간 정보를 효과적으로 유지합니다. 따라서 이미지 격자 접근법은 비디오 데이터 훈련 없이도 성능이 뛰어난 단일 VLM을 직접 적용할 수 있게 해줍니다. 우리는 10개의 제로샷 비디오 질문 응답 벤치마크(5개의 개방형 벤치마크와 5개의 다중 선택 벤치마크 포함)에 걸친 광범위한 실험 분석을 수행한 결과, 제안된 이미지 격자 시각 언어 모델(Image Grid Vision Language Model, IG-VLM)이 10개 벤치마크 중 9개에서 기존 방법들을 능가함을 확인하였습니다.