
초록
본 논문은 긴 비디오에서 밀집된 이벤트에 대한 질문 응답이라는 새로운 과제를 제시합니다. 이 과제는 긴 비디오 내의 밀집된 이벤트 질문을 응답하고 근거를 제공하여, MLLM(Multi-Modal Large Language Model)이 장시간 동안 여러 이벤트를 충실하게 이해하고 추론하는 능력을 시험합니다. 이를 지원하기 위해, 우리는 10,600개의 긴 비디오에 대해 26,000개의 이벤트와 78,000개의 질문을 포함하는 데이터셋인 DeVE-QA를 구축했습니다. 벤치마킹 결과, 최신 MLLM들이 DeVE-QA에서 어려움을 겪고 있음을 보여주었습니다. 개선을 위해, 우리는 훈련이 필요하지 않은 새로운 MLLM 접근 방법인 DeVi를 제안합니다. DeVi는 계층적 캡셔닝 모듈, 시간적 이벤트 메모리 모듈, 그리고 자기 일관성 검사 모듈로 구성되어 있으며, 각각 긴 비디오에서 밀집된 이벤트를 감지하고 문맥화 및 기억하며, 관련 비디오 순간을 근거로 삼는 역할을 수행합니다. 광범위한 실험 결과, DeVi가 밀집된 이벤트 질문 응답과 관련 비디오 순간 근거 제공에서 우수함을 입증하였습니다. 기존 MLLM들과 비교하여 DeVE-QA와 NExT-GQA에서 G(round)QA 정확도가 각각 4.8%와 2.1% 높아졌습니다. 데이터와 코드는 https://github.com/QHUni/DeVE-QA에서 이용 가능합니다.