2달 전

비디오챗: 챗 중심의 비디오 이해

KunChang Li; Yinan He; Yi Wang; Yizhuo Li; Wenhai Wang; Ping Luo; Yali Wang; Limin Wang; Yu Qiao

초록

본 논문에서는 엔드투엔드 채팅 중심의 비디오 이해 시스템인 VideoChat 개발을 시작합니다. 이 시스템은 학습 가능한 신경 인터페이스를 통해 비디오 기반 모델과 대형 언어 모델을 통합하여 공간-시간 추론, 이벤트 위치 파악, 그리고 인과 관계 추론에서 뛰어난 성능을 발휘합니다. 이를 지시적으로 조정하기 위해, 수천 개의 비디오와 상세한 설명 및 대화가 연관된 비디오 중심의 지시 데이터셋을 구축했습니다. 이 데이터셋은 공간-시간 추론에 중점을 두고 있으며 인과 관계를 포착하여, 채팅 중심의 비디오 이해 시스템 훈련에 귀중한 자산을 제공합니다. 초기 정성적 실험 결과는 본 시스템이 다양한 비디오 응용 분야에서 잠재력을 보여주며, 채팅 중심의 비디오 이해에 대한 향후 연구를 위한 간단한 프로토타입 시스템으로 활용될 수 있음을 입증합니다. 코드와 데이터에 대한 접근은 https://github.com/OpenGVLab/Ask-Anything 에서 가능합니다.