9 天前

MiniGPT-4：利用先进的大型语言模型提升视觉-语言理解能力

Deyao Zhu, Jun Chen, Xiaoqian Shen, Xiang Li, Mohamed Elhoseiny

摘要

近期发布的GPT-4展现出非凡的多模态能力，例如可直接根据手写文字生成网站，以及识别图像中的幽默元素。这些特性在以往的视觉-语言模型中极为罕见。然而，GPT-4背后的具体技术细节仍处于保密状态。我们认为，GPT-4所展现出的增强型多模态生成能力，源于对复杂大型语言模型（LLM）的有效利用。为探究这一现象，我们提出了MiniGPT-4，该模型通过单一投影层，将一个冻结的视觉编码器与一个冻结的先进大型语言模型Vicuna进行对齐。我们的工作首次揭示：通过合理地将视觉特征与先进的大型语言模型对齐，即可具备GPT-4所展现的多种高级多模态能力，例如生成详尽的图像描述，以及基于手绘草图创建网站。此外，我们在MiniGPT-4中还观察到其他新兴能力，包括根据给定图像创作故事与诗歌、基于食物图片指导用户烹饪等。在实验过程中，我们发现仅使用短句图像描述对进行训练的模型，会产生不自然的语言输出（如重复、片段化等问题）。为解决这一问题，我们在第二阶段构建了一个包含详细图像描述的数据集，并用于模型的微调，从而显著提升了模型生成结果的可靠性与整体可用性。我们已将相关代码、预训练模型及收集的数据集公开，访问地址为：https://minigpt-4.github.io/。