2 个月前
Video-ChatGPT:通过大型视觉和语言模型实现详细的视频理解
Muhammad Maaz; Hanoona Rasheed; Salman Khan; Fahad Shahbaz Khan

摘要
由大型语言模型(LLMs)驱动的对话代理为与视觉数据的交互提供了一种新的方式。尽管已经有一些初步尝试构建基于图像的对话模型,但本研究通过引入Video-ChatGPT,探讨了尚未充分开发的基于视频的对话领域。Video-ChatGPT是一种多模态模型,它将视频适应的视觉编码器与大型语言模型相结合。该模型能够理解和生成关于视频的详细对话。我们引入了一个包含100,000个视频指令对的新数据集,这些数据对通过手动和半自动管道获取,具有易于扩展且对标签噪声鲁棒的特点。此外,我们还开发了一个定量评估框架,用于客观分析基于视频的对话模型的优势和不足。代码:https://github.com/mbzuai-oryx/Video-ChatGPT。