2 个月前

Chat-UniVi：统一视觉表示赋予大型语言模型图像和视频理解能力

Peng Jin; Ryuichi Takanobu; Wancai Zhang; Xiaochun Cao; Li Yuan

摘要

大型语言模型在广泛的开放性任务中展示了令人印象深刻的通用能力，并将其应用范围扩展到了多模态对话。然而，现有的方法在有效处理图像和视频理解方面遇到了挑战，尤其是在视觉标记数量有限的情况下。在这项工作中，我们引入了Chat-UniVi，这是一种统一的视觉-语言模型，能够通过统一的视觉表示来理解和参与涉及图像和视频的对话。具体而言，我们使用一组动态视觉标记来统一表示图像和视频。该表示框架使模型能够高效地利用有限数量的视觉标记，同时捕捉图像所需的空间细节和视频所需的全面时间关系。此外，我们采用了多尺度表示方法，使模型能够感知高层次的语义概念和低层次的视觉细节。值得注意的是，Chat-UniVi是在包含图像和视频的混合数据集上训练的，这使得它可以无需任何修改直接应用于涉及这两种媒介的任务。大量的实验结果表明，Chat-UniVi在性能上始终优于专门为图像或视频设计的现有方法。代码可在https://github.com/PKU-YuanGroup/Chat-UniVi 获取。