8 个月前

计算机视觉

计算机视觉

Ziwei Luo Fredrik K. Gustafsson Zheng Zhao Jens Sjölund Thomas B. Schön

摘要

视觉-语言模型（如CLIP）在零样本或无标签预测的多种下游任务中展现出巨大的影响。然而，当涉及到低级视觉任务（如图像恢复）时，由于输入数据的损坏，这些模型的性能会显著下降。本文提出了一种退化感知的视觉-语言模型（DA-CLIP），以更好地将预训练的视觉-语言模型迁移到低级视觉任务中，作为多任务框架下的图像恢复方法。具体而言，DA-CLIP训练了一个额外的控制器，该控制器能够调整固定的CLIP图像编码器以预测高质量的特征嵌入。通过将特征嵌入通过交叉注意力机制整合到图像恢复网络中，我们能够引导模型学习高保真的图像重建。此外，该控制器还会输出一个与输入实际损坏相匹配的退化特征，从而为不同类型的退化提供自然分类器。为了训练DA-CLIP，我们还构建了一个包含合成字幕的混合退化数据集。我们的方法在特定退化和统一图像恢复任务上均取得了最先进的性能，展示了利用大规模预训练视觉-语言模型促进图像恢复的一个有前景的方向。我们的代码可在https://github.com/Algolzw/daclip-uir 获取。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

计算机视觉

计算机视觉

Ziwei Luo Fredrik K. Gustafsson Zheng Zhao Jens Sjölund Thomas B. Schön

摘要

视觉-语言模型（如CLIP）在零样本或无标签预测的多种下游任务中展现出巨大的影响。然而，当涉及到低级视觉任务（如图像恢复）时，由于输入数据的损坏，这些模型的性能会显著下降。本文提出了一种退化感知的视觉-语言模型（DA-CLIP），以更好地将预训练的视觉-语言模型迁移到低级视觉任务中，作为多任务框架下的图像恢复方法。具体而言，DA-CLIP训练了一个额外的控制器，该控制器能够调整固定的CLIP图像编码器以预测高质量的特征嵌入。通过将特征嵌入通过交叉注意力机制整合到图像恢复网络中，我们能够引导模型学习高保真的图像重建。此外，该控制器还会输出一个与输入实际损坏相匹配的退化特征，从而为不同类型的退化提供自然分类器。为了训练DA-CLIP，我们还构建了一个包含合成字幕的混合退化数据集。我们的方法在特定退化和统一图像恢复任务上均取得了最先进的性能，展示了利用大规模预训练视觉-语言模型促进图像恢复的一个有前景的方向。我们的代码可在https://github.com/Algolzw/daclip-uir 获取。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供