2 个月前
基于图像修复的视觉提示
Bar, Amir ; Gandelsman, Yossi ; Darrell, Trevor ; Globerson, Amir ; Efros, Alexei A.

摘要
如何在无需针对特定任务进行微调或任何模型修改的情况下,将预训练的视觉模型适应于新的下游任务?受自然语言处理(NLP)中提示技术的启发,本文研究了视觉提示技术:在测试时给定新任务的输入-输出图像示例以及一个新的输入图像,目标是自动生成与给定示例一致的输出图像。我们发现,将这一问题表述为简单的图像修复——即在拼接的视觉提示图像中填补一个空白区域——结果出乎意料地有效,前提是图像修复算法已经使用了正确的数据进行训练。我们在一个新数据集上训练了掩码自编码器,该数据集由我们整理的88,000张来自Arxiv学术论文源的未标记图组成。我们将视觉提示技术应用于这些预训练模型,并展示了其在多种下游图像到图像任务中的效果,包括前景分割、单对象检测、着色、边缘检测等。