2달 전

PLLaVA: 이미지에서 비디오로의 매개변수 없는 LLaVA 확장 및 비디오 밀도 캡셔닝

Lin Xu, Yilin Zhao, Daquan Zhou, Zhijie Lin, See Kiong Ng, Jiashi Feng
PLLaVA: 이미지에서 비디오로의 매개변수 없는 LLaVA 확장 및 비디오 밀도 캡셔닝
초록

비전-언어 사전 학습은 다양한 이미지-언어 응용 분야에서 성능을 크게 향상시켰습니다. 그러나 비디오 관련 작업의 사전 학습 과정은 매우 큰 계산 및 데이터 자원을 요구하여, 비디오-언어 모델의 발전을 저해하고 있습니다. 본 논문에서는 기존의 이미지-언어 사전 학습 모델을 밀집형 비디오 이해에 적응시키는 간단하면서도 효율적이고 자원 부담이 적은 접근 방식을 조사합니다. 초기 실험 결과, 여러 프레임을 입력으로 사용하여 비디오 데이터셋에서 직접 미세 조정(fine-tuning)하는 경우 성능 포화 또는 심지어 하락이 발생함을 확인했습니다. 추가적인 연구를 통해 이러한 현상이 주로 학습된 고노름(high-norm) 시각 특성의 편향에 기인함을 발견하였습니다. 이 결과를 바탕으로, 우리는 시간 차원에서 특성 분포를 평활화하여 극단적인 특성들의 지배적인 영향을 줄이는 간단하지만 효과적인 풀링(pooling) 전략을 제안합니다. 새로운 모델은 'Pooling LLaVA' 또는 약칭 'PLLaVA'로 명명되었습니다. PLLaVA는 비디오 질문-답변과 캡셔닝 작업 모두에서 최신 벤치마크 데이터셋에서 새로운 최고 수준의 성능을 달성하였습니다. 특히 최근 인기 있는 Video ChatGPT 벤치마크에서 PLLaVA는 5개 평가 차원의 평균 점수로 5점 만점에 3.48점을 획득하여, GPT4V (IG-VLM)의 이전 최고 수준(SOTA) 결과보다 9% 높았습니다. 최신 다중 선택 벤치마크 MVBench에서도 PLLaVA는 20개 하위 작업의 평균 정확도 58.1%를 달성하여, GPT4V (IG-VLM)보다 14.5% 높았습니다. 코드는 https://github.com/magic-research/PLLaVA 에서 제공됩니다.

PLLaVA: 이미지에서 비디오로의 매개변수 없는 LLaVA 확장 및 비디오 밀도 캡셔닝 | 최신 연구 논문 | HyperAI초신경