2달 전

Video-LLaVA: 학습을 통한 통합 시각적 표현의 정렬 전 투영

Bin Lin; Yang Ye; Bin Zhu; Jiaxi Cui; Munan Ning; Peng Jin; Li Yuan
Video-LLaVA: 학습을 통한 통합 시각적 표현의 정렬 전 투영
초록

대형 시각-언어 모델(LVLM)은 시각-언어 이해의 다양한 하위 작업에서 성능을 향상시켰습니다. 기존의 대부분 접근 방식은 이미지와 비디오를 별도의 특성 공간으로 인코딩한 후, 이를 대형 언어 모델(LLM)에 입력으로 제공합니다. 그러나 이미지와 비디오에 대한 통합된 토큰화가 부족하여, 즉 투영 전 불일치(misalignment before projection)로 인해, LLM이 여러 개의 부정확한 투영 계층에서 다중 모달 상호 작용을 학습하는 것이 어려워집니다. 본 연구에서는 시각 표현을 언어 특성 공간으로 통합하여 기초적인 LLM을 통합된 LVLM으로 발전시키고자 합니다. 그 결과, 이미지와 비디오 혼합 데이터셋에서 학습하며 서로를 상호 보완하는 간단하면서도 강력한 LVLM 베이스라인인 Video-LLaVA를 구축하였습니다. Video-LLaVA는 5개의 이미지 질문-답변 데이터셋과 4개의 이미지 벤치마크 도구를 포함하는 9개의 이미지 벤치마크에서 우수한 성능을 보여주었습니다. 또한, Video-LLaVA는 MSRVTT, MSVD, TGIF, ActivityNet 각각에서 Video-ChatGPT보다 5.8%, 9.9%, 18.6%, 10.1% 높은 성능을 나타냈습니다. 특히 광범위한 실험 결과는 Video-LLaVA가 통합된 시각 표현 내에서 이미지와 비디오를 상호적으로 이롭게 한다는 점을 입증하며, 이미지를 위한 모델이나 비디오를 위한 모델보다 우수한 성능을 보임을 확인하였습니다. 우리는 이 연구가 LLM에 대한 다중 모달 입력에 대해 소박하지만 유용한 통찰력을 제공하기를 바랍니다. 코드 주소: \href{https://github.com/PKU-YuanGroup/Video-LLaVA}