2달 전
Chat-UniVi: 통합된 시각적 표현이 이미지 및 비디오 이해를 갖춘 대형 언어 모델을 강화하다
Peng Jin; Ryuichi Takanobu; Wancai Zhang; Xiaochun Cao; Li Yuan

초록
대형 언어 모델들은 다양한 개방형 작업에서 뛰어난 보편적인 능력을 입증하였으며, 다중 모드 대화의 활용 범위를 확장하였습니다. 그러나 기존 방법들은 이미지와 비디오 이해, 특히 제한된 시각적 토큰을 효과적으로 처리하는 데 어려움을 겪고 있습니다. 본 연구에서는 Chat-UniVi라는 통합 시각-언어 모델을 소개합니다. 이 모델은 통합된 시각 표현을 통해 이미지와 비디오를 포함한 대화를 이해하고 참여할 수 있는 능력을 갖추고 있습니다. 구체적으로, 동적 시각 토큰 세트를 사용하여 이미지와 비디오를 일관되게 표현합니다. 이 표현 프레임워크는 모델이 제한된 수의 시각 토큰을 효율적으로 활용하여 이미지를 위한 공간적 세부 정보와 비디오를 위한 포괄적인 시간적 관계를 동시에 포착할 수 있게 합니다. 또한, 다중 스케일 표현을 활용하여 고수준의 의미론적 개념과 저수준의 시각적 세부 정보를 모두 인식할 수 있도록 합니다. 특히, Chat-UniVi는 이미지와 비디오가 혼합된 데이터셋으로 학습되었기 때문에, 두 매체 모두 관련된 작업에 직접 적용할 수 있으며 어떠한 수정도 필요하지 않습니다. 광범위한 실험 결과는 Chat-UniVi가 이미지나 비디오 전용으로 설계된 기존 방법들보다 일관되게 우수한 성능을 발휘함을 보여줍니다. 코드는 https://github.com/PKU-YuanGroup/Chat-UniVi에서 제공됩니다.