7일 전

샷럭크 홈즈: 비디오 설명 및 요약을 위한 효율적인 소규모 대규모 언어-시각 모델 가족

Richard Luo, Austin Peng, Adithya Vasudev, Rishabh Jain
샷럭크 홈즈: 비디오 설명 및 요약을 위한 효율적인 소규모 대규모 언어-시각 모델 가족
초록

비디오는 점점 더 두드러지고 정보 밀도가 높은 매체로 부상하고 있으나, 언어 모델에게는 상당한 도전 과제를 안겨준다. 일반적인 비디오는 여러 짧은 단위, 즉 씬(shot)들의 시퀀스로 구성되며, 이들이 함께 일관된 내러티브를 형성한다. 각 씬은 문장 속 단어에 비유할 수 있으며, 시각적 정보와 청각적 정보와 같은 여러 데이터 흐름을 동시에 처리해야 한다. 전체 비디오를 이해하기 위해서는 단순히 각 씬의 시각-청각 정보를 파악하는 것뿐만 아니라, 각 씬 간의 개념적 연결을 모델이 추론하여 더 넓은 범위의 통합된 이야기를 생성할 수 있어야 한다. 비록 이 분야에서 상당한 진전이 있었음에도 불구하고, 현재의 연구 대부분은 비디오의 보다 세밀한 씬 단위의 의미 정보를 간과하는 경향이 있다. 본 연구에서는 비디오 요약 및 캡셔닝 성능을 향상시키기 위해 효율적인 대규모 언어-시각 모델(LLVM) 패밀리를 제안한다. 이를 ‘Shotluck Holmes’라 명명한다. 보다 우수한 사전 훈련 및 데이터 수집 전략을 활용함으로써, 기존의 소규모 LLVM 모델이 단일 이미지 이해를 넘어서 프레임 시퀀스를 이해할 수 있도록 능력을 확장한다. 구체적으로, Shotluck Holmes는 더 작고 계산적으로 효율적인 모델임에도 불구하고, Shot2Story 비디오 캡셔닝 및 요약 과제에서 최신 기술(SOTA)을 초월하는 성능을 달성함을 입증한다.

샷럭크 홈즈: 비디오 설명 및 요약을 위한 효율적인 소규모 대규모 언어-시각 모델 가족 | 최신 연구 논문 | HyperAI초신경