장거리 비디오 질문-답변을 위한 간단한 LLM 프레임워크

우리는 LLoVi를 소개합니다. 이는 장기 비디오 질문-답변(LVQA)을 위한 언어 기반 프레임워크입니다. 기존의 장기 비디오 이해 방법들과 달리, 이러한 방법들은 종종 비용이 많이 들고 전문적인 장기 비디오 모델링 설계(예: 메모리 큐, 상태 공간 계층 등)가 필요하지만, 우리의 접근 방식은 프레임/클립 수준의 시각적 캡셔너(예: BLIP2, LaViLa, LLaVA)와 대형 언어 모델(GPT-3.5, GPT-4)을 결합하여 간단하면서도 놀랍게도 효과적인 LVQA 프레임워크를 제공합니다. 구체적으로, 우리는 LVQA의 단기 및 장기 모델링 측면을 두 단계로 분해하였습니다. 첫 번째 단계에서는 긴 입력 비디오에서 밀집하게 샘플링된 짧은 비디오 클립(0.5-8초 길이)에 대한 텍스트 설명을 생성하기 위해 단기 시각적 캡셔너를 사용합니다. 이후, 대형 언어 모델(LLM)은 밀집 추출된 단기 캡션들을 집계하여 전체 비디오를 이해하고 질문에 답하기 위해 필요한 장기 시간적 추론을 수행합니다.우리의 간단한 프레임워크가 왜 이렇게 효과적인지 분석하기 위해, 시스템의 다양한 구성 요소들을 철저히 평가하였습니다. 경험적 분석 결과, 시각적 캡셔너와 LLM 선택이 좋은 LVQA 성능에 결정적이란 사실이 드러났습니다. 또한, LLM에게 먼저 노이즈가 있는 단기 시각적 캡션들을 요약하도록 하고 그 다음에 주어진 입력 질문에 답하도록 하는 특화된 프롬프트가 LVQA 성능을 크게 향상시킨다는 것을 보여주었습니다. EgoSchema는 매우 긴 형태의 비디오 질문-답변 벤치마크로 가장 잘 알려져 있으며, 이 벤치마크에서 우리의 방법은 50.3%의 정확도를 달성하여 이전 최고 성능 접근 방식보다 18.1%(절대 개선치) 우수한 결과를 보였습니다. 또한 NeXT-QA와 IntentQA에서도 우리의 접근 방식은 각각 이전 최신 연구보다 4.1%와 3.1% 우수한 성능을 보였습니다. 우리는 또한 LLoVi를 지정된 LVQA로 확장하여 NeXT-GQA 데이터셋에서 모든 이전 방법들을 능가한다는 것을 보여주었습니다. 코드는 https://github.com/CeeZh/LLoVi에서 공개될 예정입니다.