2달 전

긴 이야기 짧게: 장편 비디오 질문 응답을 위한 요약-검색 방법

Jiwan Chung; Youngjae Yu
긴 이야기 짧게: 장편 비디오 질문 응답을 위한 요약-검색 방법
초록

대형 언어 모델인 GPT-3와 같은 모델들은 작업별 훈련 데이터가 필요하지 않은 상태에서 새로운 작업에 적응하는 뛰어난 능력을 보여주었습니다. 이 능력은 작업의 다양성이 크지만, 사용 가능한 감독 데이터가 적은 내러티브 질문 응답과 같은 환경에서 특히 효과적이었습니다. 본 연구에서는 이러한 언어 모델들이 드라마, 영화, 애니메이션 등 스토리가 중요한 멀티미디어 콘텐츠의 긴 다중모달 내러티브에 그들의 제로샷 추론 능력을 확장할 수 있는지 조사하였습니다. 우리는 'Long Story Short'이라는 프레임워크를 제안합니다. 이 프레임워크는 먼저 비디오의 내러티브를 짧은 플롯으로 요약한 후, 질문과 관련된 비디오 부분을 검색합니다. 또한 시각적 일치성을 강화하기 위해 CLIPCheck를 제안합니다. 우리의 모델은 기존 최신 감독 학습 모델들을 크게 초월하여, 긴 비디오에 대한 제로샷 질문 응답의 잠재력을 강조하고 있습니다.

긴 이야기 짧게: 장편 비디오 질문 응답을 위한 요약-검색 방법 | 최신 연구 논문 | HyperAI초신경