2달 전

Video-ChatGPT: 대규모 시각 및 언어 모델을 통한 상세한 비디오 이해 연구

Muhammad Maaz; Hanoona Rasheed; Salman Khan; Fahad Shahbaz Khan
Video-ChatGPT: 대규모 시각 및 언어 모델을 통한 상세한 비디오 이해 연구
초록

대형 언어 모델(LLM)을 기반으로 하는 대화 에이전트는 시각적 데이터와 상호작용하는 새로운 방법을 제공하고 있습니다. 이미지 기반의 대화 모델에 대한 초기 시도가 있었지만, 이 연구는 비디오 기반 대화라는 미개척 분야를 다루고자 Video-ChatGPT를 소개합니다. Video-ChatGPT는 비디오에 적응된 시각 인코더와 LLM을 결합한 다중 모달 모델입니다. 이 모델은 비디오에 대해 자세한 대화를 이해하고 생성할 수 있는 능력을 갖추고 있습니다. 우리는 수동 및 반자동 파이프라인을 통해 쉽게 확장되고 라벨 노이즈에 강건한 100,000개의 비디오-명령 쌍 데이터셋을 수집하여 Video-ChatGPT를 훈련시키기 위해 사용되었습니다. 또한, 비디오 기반 대화 모델의 성능을 객관적으로 분석하기 위한 정량적인 평가 프레임워크를 개발하였습니다. 코드: https://github.com/mbzuai-oryx/Video-ChatGPT.