2달 전

TS-LLaVA: 썸네일 및 샘플링을 통한 시각적 토큰 생성으로 트레이닝이 필요 없는 비디오 대형 언어 모델 구축

Tingyu Qu; Mingxiao Li; Tinne Tuytelaars; Marie-Francine Moens
TS-LLaVA: 썸네일 및 샘플링을 통한 시각적 토큰 생성으로 트레이닝이 필요 없는 비디오 대형 언어 모델 구축
초록

최근 다중 모드 대형 언어 모델(LLM)의 발전은 다중 모드 콘텐츠 이해에서 큰 성공을 보여주고 있습니다. 비디오 이해 작업의 경우, 고품질로 정리된 비디오-텍스트 짝 데이터의 부족으로 인해 학습 기반 비디오 LLM을 구축하는 것이 어렵습니다. 반면에 이미지-텍스트 짝 데이터는 훨씬 쉽게 얻을 수 있으며, 이미지와 비디오 사이에는 상당한 유사성이 존재합니다. 따라서 이미지 LLM을 확장하여 비디오 이해 작업에 활용하는 것은 매력적인 대안입니다. 여러 프레임에서 시각 토큰을 압축하는 효과적인 전략 개발은 강력한 사전 학습된 이미지 LLM을 활용하는 유망한 방법입니다. 본 연구에서는 학습이 필요하지 않은 비디오 LLM 구축을 위한 기존 압축 전략의 제한점을 탐구합니다. 이 결과를 바탕으로 썸네일 및 샘플링 전략(Thumbnail-and-Sampling strategy)을 통해 시각 토큰을 구성하는 TS-LLaVA 방법론을 제시합니다. 주어진 비디오에 대해 모든 입력 프레임에서 몇 개의 등간격 프레임을 선택하여 상세한 시각적 단서로 사용할 썸네일 이미지를 구성하고, 모든 입력 프레임에서 샘플링된 시각 토큰(Sampled visual tokens)으로 보완합니다. 우리의 방법론은 다양한 벤치마크에서 학습이 필요하지 않은 비디오 LLM 중 최신 최고 성능을 달성하였습니다. 특히, 34B 모델은 MVBench 벤치마크에서 GPT-4V를 능가하며, 어려운 MLVU 벤치마크에서는 72B 학습 기반 비디오 LLM인 Video-LLaMA2와 비교 가능한 성능을 보여주었습니다. 코드는 https://github.com/tingyu215/TS-LLaVA 에서 확인할 수 있습니다.

TS-LLaVA: 썸네일 및 샘플링을 통한 시각적 토큰 생성으로 트레이닝이 필요 없는 비디오 대형 언어 모델 구축 | 최신 연구 논문 | HyperAI초신경