9 天前
MiniGPT-4:利用先进的大型语言模型提升视觉-语言理解能力
Deyao Zhu, Jun Chen, Xiaoqian Shen, Xiang Li, Mohamed Elhoseiny

摘要
近期发布的GPT-4展现出非凡的多模态能力,例如可直接根据手写文字生成网站,以及识别图像中的幽默元素。这些特性在以往的视觉-语言模型中极为罕见。然而,GPT-4背后的具体技术细节仍处于保密状态。我们认为,GPT-4所展现出的增强型多模态生成能力,源于对复杂大型语言模型(LLM)的有效利用。为探究这一现象,我们提出了MiniGPT-4,该模型通过单一投影层,将一个冻结的视觉编码器与一个冻结的先进大型语言模型Vicuna进行对齐。我们的工作首次揭示:通过合理地将视觉特征与先进的大型语言模型对齐,即可具备GPT-4所展现的多种高级多模态能力,例如生成详尽的图像描述,以及基于手绘草图创建网站。此外,我们在MiniGPT-4中还观察到其他新兴能力,包括根据给定图像创作故事与诗歌、基于食物图片指导用户烹饪等。在实验过程中,我们发现仅使用短句图像描述对进行训练的模型,会产生不自然的语言输出(如重复、片段化等问题)。为解决这一问题,我们在第二阶段构建了一个包含详细图像描述的数据集,并用于模型的微调,从而显著提升了模型生成结果的可靠性与整体可用性。我们已将相关代码、预训练模型及收集的数据集公开,访问地址为:https://minigpt-4.github.io/。