2달 전

LinVT: 이미지 수준의 대형 언어 모델을 통해 비디오 이해 능력 향상시키기

Lishuai Gao; Yujie Zhong; Yingsen Zeng; Haoxian Tan; Dengjie Li; Zheng Zhao
LinVT: 이미지 수준의 대형 언어 모델을 통해 비디오 이해 능력 향상시키기
초록

대형 언어 모델(LLM)은 다양한 작업에서 널리 사용되어 비디오를 위한 LLM 기반 어시스턴트 개발을 촉진하고 있습니다. 처음부터 학습하는 대신, 이미 잘 훈련된 이미지 기반의 LLM을 비디오 데이터로 훈련하여 비디오-LLM으로 변환할 수 있는 모듈을 제안합니다. 이미지-LLM이 비디오 처리에 더 잘 적응할 수 있도록 두 가지 설계 원칙을 소개합니다: 원래 시각-언어 일치성을 유지하기 위한 선형 변환과 중복된 비디오 내용에서 대표적인 정보를 축약하는 것입니다. 이러한 원칙에 따라 플러그 앤 플레이 방식의 선형 비디오 토크나이저(LinVT)를 제안합니다. 이는 기존 이미지-LLM이 비디오를 이해할 수 있게 해줍니다. 우리는 LinVT를 Aquila, Blip-3, InternVL2, Mipha, Molmo 및 Qwen2-VL 등 여섯 가지 최근 시각 LLM과 함께 벤치마킹하여 LinVT의 높은 호환성을 보여주었습니다. LinVT 기반 LLM은 다양한 비디오 벤치마크에서 최고 성능을 달성하며, LinVT가 다중 모달 비디오 이해에서 효과적임을 입증합니다.