8 个月前

多模态表征

Sanghwan Kim Rui Xiao Mariana-Iuliana Georgescu Stephan Alaniz Zeynep Akata

摘要

使用对比损失训练的视觉-语言模型（VLMs）在各种视觉和语言任务中取得了显著进展。然而，对比损失的全局性质使得这些模型主要关注前景对象，而忽略了图像中的其他关键信息，这限制了它们在下游任务中的有效性。为了解决这些挑战，我们提出了COSMOS：一种用于视觉-语言预训练的跨模态自蒸馏方法（CrOSs-MOdality Self-distillation），该方法将一种新颖的文本裁剪策略和跨注意力模块整合到一个自监督学习框架中。我们创建了图像和文本的全局视图和局部视图（即多模态增强），这对于VLMs中的自蒸馏至关重要。此外，我们引入了一个跨注意力模块，使COSMOS能够通过跨模态自蒸馏损失学习全面的跨模态表示。COSMOS在各种零样本下游任务上始终优于先前的强大基线模型，包括检索、分类和语义分割。此外，在视觉感知和上下文理解任务中，它还超越了基于CLIP且在更大数据集上训练的模型。代码可在https://github.com/ExplainableML/cosmos 获取。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

多模态表征

Sanghwan Kim Rui Xiao Mariana-Iuliana Georgescu Stephan Alaniz Zeynep Akata

摘要

使用对比损失训练的视觉-语言模型（VLMs）在各种视觉和语言任务中取得了显著进展。然而，对比损失的全局性质使得这些模型主要关注前景对象，而忽略了图像中的其他关键信息，这限制了它们在下游任务中的有效性。为了解决这些挑战，我们提出了COSMOS：一种用于视觉-语言预训练的跨模态自蒸馏方法（CrOSs-MOdality Self-distillation），该方法将一种新颖的文本裁剪策略和跨注意力模块整合到一个自监督学习框架中。我们创建了图像和文本的全局视图和局部视图（即多模态增强），这对于VLMs中的自蒸馏至关重要。此外，我们引入了一个跨注意力模块，使COSMOS能够通过跨模态自蒸馏损失学习全面的跨模态表示。COSMOS在各种零样本下游任务上始终优于先前的强大基线模型，包括检索、分类和语义分割。此外，在视觉感知和上下文理解任务中，它还超越了基于CLIP且在更大数据集上训练的模型。代码可在https://github.com/ExplainableML/cosmos 获取。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供