2 个月前
“这是我的独角兽,Fluffy”:个性化冻结的视觉-语言表示
Niv Cohen; Rinon Gal; Eli A. Meirom; Gal Chechik; Yuval Atzmon

摘要
大规模视觉与语言模型在网页规模数据上进行预训练,提供了对众多视觉与语言问题极为宝贵的表示。然而,如何利用这些模型来推理用户特定的视觉概念在非结构化语言中的应用尚不清楚。这一问题在多个领域中出现,从个性化图像检索到与智能设备的个性化交互。我们引入了一种新的学习框架,称为个性化视觉与语言(PerVL),并发布了两个新的基准数据集,用于检索和分割用户特定的“个性化”概念“在野外”。在PerVL中,应学习个性化概念(1)独立于下游任务,(2)允许预训练模型通过自由语言对其进行推理,并且(3)不需要个性化的负样本。我们提出了一种解决PerVL的架构,该架构通过扩展预训练模型的输入词汇表并添加新的词嵌入来表示新的个性化概念。然后,模型可以通过简单地将这些新概念用于句子中来进行推理。我们展示了我们的方法可以从少量示例中学习个性化视觉概念,并能有效地将其应用于图像检索和语义分割中,使用丰富的文本查询。