8 个月前

计算机视觉

多模态表征

计算机视觉

Junhyeong Cho; Gilhyun Nam; Sungyeon Kim; Hunmin Yang; Suha Kwak

摘要

在联合视觉-语言空间中，文本特征（例如，“一张狗的照片”）可以有效地表示其相关的图像特征（例如，来自狗照片的特征）。此外，最近的一项研究展示了这种联合空间的跨模态可迁移性现象。基于这些观察结果，我们提出了PromptStyler，该方法通过合成多样化的风格来模拟联合空间中的各种分布偏移，从而应对无源域泛化问题，而无需使用任何图像。所提出的方法通过可学习的风格词向量生成多种风格特征（例如，“一种S风格的a”），其中S为伪词。为了确保学习到的风格不会扭曲内容信息，我们强制风格-内容特征（例如，“一种S*风格的a [类别]”）在联合视觉-语言空间中靠近其对应的内容特征（例如，“[类别]”）。在学习了风格词向量之后，我们使用合成的风格-内容特征训练一个线性分类器。尽管PromptStyler在训练过程中不需要任何图像，但它在PACS、VLCS、OfficeHome和DomainNet数据集上达到了最先进的性能。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

计算机视觉

多模态表征

计算机视觉

Junhyeong Cho; Gilhyun Nam; Sungyeon Kim; Hunmin Yang; Suha Kwak

摘要

在联合视觉-语言空间中，文本特征（例如，“一张狗的照片”）可以有效地表示其相关的图像特征（例如，来自狗照片的特征）。此外，最近的一项研究展示了这种联合空间的跨模态可迁移性现象。基于这些观察结果，我们提出了PromptStyler，该方法通过合成多样化的风格来模拟联合空间中的各种分布偏移，从而应对无源域泛化问题，而无需使用任何图像。所提出的方法通过可学习的风格词向量生成多种风格特征（例如，“一种S风格的a”），其中S为伪词。为了确保学习到的风格不会扭曲内容信息，我们强制风格-内容特征（例如，“一种S*风格的a [类别]”）在联合视觉-语言空间中靠近其对应的内容特征（例如，“[类别]”）。在学习了风格词向量之后，我们使用合成的风格-内容特征训练一个线性分类器。尽管PromptStyler在训练过程中不需要任何图像，但它在PACS、VLCS、OfficeHome和DomainNet数据集上达到了最先进的性能。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供