프레임이 너무 많아, 모두 유용하지는 않다: 장편 비디오 QA를 위한 효율적인 전략

장시간에 걸쳐 확장되는 장형 비디오(long-form videos)는 정보가 중복되고 여러 개의 서로 연관성이 낮은 독립적인 사건이나 실체를 포함하고 있습니다. 따라서, 장형 비디오 질문 응답(Long-Form Video Question Answering, LVQA)을 수행할 때, 올바른 답변을 생성하기 위해 필요한 모든 정보가 종종 작은 프레임 집합에 포함될 수 있습니다. 최근 연구에서는 LVQA 벤치마크에서 뛰어난 성능을 달성하면서도, 비디오 내의 모든 시각적 콘텐츠를 자연어로 변환하는 데 비전 언어 모델(Vision Language Models, VLMs)에 의존하는 대규모 언어 모델(Large Language Models, LLMs)의 사용을 탐구하였습니다. 이러한 VLMs는 종종 장시간 비디오에서 균일하게 샘플링된 많은 프레임들을 독립적으로 캡션ning 하는데, 이는 효율적이지 않고 대부분 중복될 수 있습니다. 이러한 결정 방식에 대해 의문을 제기하며, 우리는 이러한 중복성을 크게 줄일 수 있는 최적의 키프레임 선택 전략인 계층적 키프레임 선택기(Hierarchical Keyframe Selector)를 탐구하였습니다. 우리가 제안한 프레임워크인 LVNet은 EgoSchema, NExT-QA, IntentQA 세 가지 벤치마크 LVQA 데이터셋에서 유사한 캡션 규모로 최고 수준의 성능을 달성하였으며, VideoMME에서 1시간 길이의 비디오에서도 우수한 성능을 보여주었습니다. 우리의 코드는 공개적으로 배포될 예정입니다. 코드는 https://github.com/jongwoopark7978/LVNet에서 확인할 수 있습니다.