
초록
우리는 비디오 질의응답(video QA)을 위한 간단한 접근법인 Q-ViD를 제안한다. 기존의 복잡한 아키텍처나 계산 비용이 큰 파이프라인, 또는 GPT와 같은 폐쇄형 모델에 의존하는 기존 방법들과 달리, Q-ViD는 단일 지시어 인식형 오픈형 비전-언어 모델(InstructBLIP)을 활용하여 프레임 설명을 기반으로 비디오 QA 문제를 해결한다. 구체적으로, 비디오에 대한 타깃 질문을 기반으로 캡션 생성을 위한 지시 프롬프트를 설계하고, InstructBLIP을 이용해 해당 작업에 유용한 비디오 프레임 캡션을 추출한다. 이후 질문에 따라 달라지는 프레임 캡션을 종합하여 전체 비디오의 설명을 구성한 뒤, 이 정보와 질의응답 프롬프트를 대규모 언어 모델(LLM)에 입력한다. 여기서 LLM은 추론 모듈로서 다중 선택형 QA의 최종 단계를 수행한다. 제안하는 간단한 Q-ViD 프레임워크는 NExT-QA, STAR, How2QA, TVQA, IntentQA 등 다양한 비디오 QA 벤치마크에서 현재 최고 성능 모델과 견줄 만하거나 더 뛰어난 성능을 달성하였다.