
摘要
在自然语言处理(NLP)中,上下文学习作为一种新的范式,使得模型仅通过少量提示和示例就能快速适应各种任务。然而,在计算机视觉领域,上下文学习面临的困难在于任务的输出表示差异显著,因此如何定义视觉模型能够理解和迁移到域外任务的一般性任务提示尚不清楚。在这项工作中,我们提出了Painter,一种通用模型,该模型通过以“图像”为中心的解决方案克服了这些障碍,即重新定义核心视觉任务的输出为图像,并将任务提示也指定为图像。基于这一理念,我们的训练过程极其简单,对输入和输出图像对的拼接执行标准的掩码图像建模。这使得模型能够在可见图像块的条件下执行任务。因此,在推理过程中,我们可以采用来自同一任务的一对输入和输出图像作为输入条件,以指示要执行的任务。无需复杂的附加功能,我们的通用Painter模型在七个代表性视觉任务上取得了与成熟的任务专用模型相当的竞争性能,这些任务涵盖了从高层次视觉理解到低层次图像处理的范围。此外,Painter在几个具有挑战性的任务上显著优于最近的通用模型。