2 个月前
控制视觉-语言模型以实现多任务图像修复
Luo, Ziwei ; Gustafsson, Fredrik K. ; Zhao, Zheng ; Sjölund, Jens ; Schön, Thomas B.

摘要
视觉-语言模型(如CLIP)在零样本或无标签预测的多种下游任务中展现出巨大的影响。然而,当涉及到低级视觉任务(如图像恢复)时,由于输入数据的损坏,这些模型的性能会显著下降。本文提出了一种退化感知的视觉-语言模型(DA-CLIP),以更好地将预训练的视觉-语言模型迁移到低级视觉任务中,作为多任务框架下的图像恢复方法。具体而言,DA-CLIP训练了一个额外的控制器,该控制器能够调整固定的CLIP图像编码器以预测高质量的特征嵌入。通过将特征嵌入通过交叉注意力机制整合到图像恢复网络中,我们能够引导模型学习高保真的图像重建。此外,该控制器还会输出一个与输入实际损坏相匹配的退化特征,从而为不同类型的退化提供自然分类器。为了训练DA-CLIP,我们还构建了一个包含合成字幕的混合退化数据集。我们的方法在特定退化和统一图像恢复任务上均取得了最先进的性能,展示了利用大规模预训练视觉-语言模型促进图像恢复的一个有前景的方向。我们的代码可在https://github.com/Algolzw/daclip-uir 获取。