
摘要
视觉模型的生成式预训练问题长期以来一直是一个悬而未决的难题。目前,文本到图像(Text-to-Image, T2I)扩散模型在生成与文本输入高度匹配的高分辨率图像方面展现出卓越能力,这一成就得益于其在大规模图像-文本对上的预训练。由此自然引出一个关键问题:扩散模型是否可用于解决视觉感知任务?本文提出了一种简洁而高效的方法,旨在利用预训练的扩散模型完成各类视觉感知任务。我们的核心思想是向预训练扩散模型中引入可学习的嵌入向量(即“元提示”,meta prompts),以提取适用于感知任务的有效特征。元提示的作用具有双重性:其一,作为T2I模型中原始文本嵌入的直接替代,可在特征提取阶段激活与任务相关的关键特征;其二,通过重新排列所提取的特征,引导模型聚焦于当前任务最相关的特征表示。此外,我们设计了一种循环精炼训练策略,充分挖掘扩散模型的内在特性,从而生成更具判别力的视觉特征。在多个基准数据集上的大量实验验证了所提方法的有效性。我们的方法在NYU Depth V2和KITTI数据集上的深度估计任务中取得了新的性能纪录,在CityScapes数据集上的语义分割任务中也实现了显著提升。同时,在ADE20K数据集的语义分割任务和COCO数据集的姿势估计任务上,所提方法的表现与当前最先进水平相当,进一步证明了其强大的泛化能力与广泛适用性。