7 天前
GIT:一种用于视觉与语言的生成式图像到文本Transformer
Jianfeng Wang, Zhengyuan Yang, Xiaowei Hu, Linjie Li, Kevin Lin, Zhe Gan, Zicheng Liu, Ce Liu, Lijuan Wang

摘要
本文提出并训练了一种生成式图像到文本的Transformer模型——GIT,旨在统一视觉-语言任务,如图像/视频描述生成与视觉问答。尽管生成式模型在预训练与微调阶段能够保持一致的网络架构,但现有方法通常结构复杂(如单模态或多模态编码器-解码器),且依赖外部模块(如目标检测器、标签识别器和光学字符识别,OCR)。在GIT中,我们大幅简化了架构:仅采用一个图像编码器与一个文本解码器,并在单一语言建模任务下进行训练。同时,我们通过扩大预训练数据规模与模型参数量,显著提升了模型性能。在不依赖额外复杂组件的前提下,GIT在12个具有挑战性的基准测试中均取得了新的SOTA(state-of-the-art)成绩,且性能优势显著。例如,我们的模型首次在TextCaps数据集上超越人类表现(CIDEr得分达到138.2,超过人类水平的125.5)。此外,我们提出了一种基于生成式的图像分类与场景文本识别新方法,在标准基准上取得了良好的效果。相关代码已开源,地址为:\url{https://github.com/microsoft/GenerativeImage2Text}。