2달 전

Chat-UniVi: 통합된 시각적 표현이 이미지 및 비디오 이해를 갖춘 대형 언어 모델을 강화하다

Peng Jin; Ryuichi Takanobu; Wancai Zhang; Xiaochun Cao; Li Yuan
Chat-UniVi: 통합된 시각적 표현이 이미지 및 비디오 이해를 갖춘 대형 언어 모델을 강화하다
초록

대형 언어 모델들은 다양한 개방형 작업에서 뛰어난 보편적인 능력을 입증하였으며, 다중 모드 대화의 활용 범위를 확장하였습니다. 그러나 기존 방법들은 이미지와 비디오 이해, 특히 제한된 시각적 토큰을 효과적으로 처리하는 데 어려움을 겪고 있습니다. 본 연구에서는 Chat-UniVi라는 통합 시각-언어 모델을 소개합니다. 이 모델은 통합된 시각 표현을 통해 이미지와 비디오를 포함한 대화를 이해하고 참여할 수 있는 능력을 갖추고 있습니다. 구체적으로, 동적 시각 토큰 세트를 사용하여 이미지와 비디오를 일관되게 표현합니다. 이 표현 프레임워크는 모델이 제한된 수의 시각 토큰을 효율적으로 활용하여 이미지를 위한 공간적 세부 정보와 비디오를 위한 포괄적인 시간적 관계를 동시에 포착할 수 있게 합니다. 또한, 다중 스케일 표현을 활용하여 고수준의 의미론적 개념과 저수준의 시각적 세부 정보를 모두 인식할 수 있도록 합니다. 특히, Chat-UniVi는 이미지와 비디오가 혼합된 데이터셋으로 학습되었기 때문에, 두 매체 모두 관련된 작업에 직접 적용할 수 있으며 어떠한 수정도 필요하지 않습니다. 광범위한 실험 결과는 Chat-UniVi가 이미지나 비디오 전용으로 설계된 기존 방법들보다 일관되게 우수한 성능을 발휘함을 보여줍니다. 코드는 https://github.com/PKU-YuanGroup/Chat-UniVi에서 제공됩니다.