2달 전

Video-LLaMA: 비디오 이해를 위한 지시어 조정된 오디오-비주얼 언어 모델

Hang Zhang; Xin Li; Lidong Bing
Video-LLaMA: 비디오 이해를 위한 지시어 조정된 오디오-비주얼 언어 모델
초록

우리는 비디오-LLaMA라는 다중 모달 프레임워크를 소개합니다. 이 프레임워크는 대형 언어 모델(LLMs)이 비디오의 시각적 및 청각적 콘텐츠를 이해할 수 있는 능력을 제공합니다. 비디오-LLaMA는 동결된 사전 학습 시각 및 오디오 인코더와 동결된 LLMs를 기반으로 크로스 모달 학습을 시작합니다. 이전 연구들이 시각적 또는 청각적 신호만 처리하기 위해 LLMs를 보완한 것과 달리, 비디오-LLaMA는 두 가지 과제를 해결하여 비디오 이해를 가능하게 합니다: (1) 시각적 장면의 시간적 변화 포착, (2) 오디오-시각 신호 통합.첫 번째 과제에 대해 우리는 사전 학습 이미지 인코더를 우리의 비디오 인코더에 통합하는 Video Q-former를 제안하고, 비디오-언어 대응 관계를 학습하기 위한 비디오-텍스트 생성 작업을 도입하였습니다. 두 번째 과제에 대해서는 ImageBind, 즉 여러 모달을 정렬하는 보편적인 임베딩 모델을 사전 학습 오디오 인코더로 활용하고, ImageBind 위에 Audio Q-former를 도입하여 LLM 모듈에 적절한 청각 쿼리 임베딩을 학습하였습니다.비디오 및 오디오 인코더의 출력을 LLM의 임베딩 공간과 일치시키기 위해, 먼저 대규모 비디오/이미지-캡션 쌍 데이터로 비디오-LLaMA를 훈련시키고, 그 다음에는 중간 규모이지만 더 높은 품질의 시각 지시 데이터셋으로 모델을 조정하였습니다. 우리는 비디오-LLaMA가 시각적 및 청각적 정보가 포함된 비디오 내용을 인식하고 이해하며, 의미 있는 응답을 생성할 수 있는 능력을 보여준다는 것을 발견하였습니다.