17 天前
基于冻结语言模型的多模态少样本学习
Maria Tsimpoukelli, Jacob Menick, Serkan Cabi, S. M. Ali Eslami, Oriol Vinyals, Felix Hill

摘要
当在足够大的规模下进行训练时,自回归语言模型展现出一种显著能力:仅通过几个示例提示(prompt),即可学会新的语言任务。本文提出了一种简单而有效的方法,将这种少样本学习能力迁移至多模态场景(视觉与语言结合)。我们利用图像与对应标题对齐的数据,训练一个视觉编码器,将每张图像表示为一系列连续的嵌入向量,使得一个预训练且冻结的语言模型在接收到该图像嵌入作为前缀提示后,能够生成恰当的标题。由此构建的系统是一种多模态少样本学习器,其令人惊讶的能力在于:在仅提供由多个交错排列的图像与文本嵌入构成的示例序列作为条件时,能够快速掌握多种新任务。我们通过在一个涵盖多种既有与新设基准测试的统一模型上进行评估,证明该系统能够迅速学习新物体的词汇表达、识别全新的视觉类别,仅凭少量示例即可完成视觉问答任务,并有效利用外部知识。