8 个月前

多模态表征

计算机视觉

Wang Zhaoqing ; Lu Yu ; Li Qiang ; Tao Xunqiang ; Guo Yandong ; Gong Mingming ; Liu Tongliang

摘要

指代图像分割旨在通过自然语言表达来分割目标对象。由于文本和图像之间的数据特性存在显著差异，网络在对齐文本和像素级特征方面面临巨大挑战。现有的方法通常利用预训练模型来促进学习，但分别从预训练模型中迁移语言和视觉知识，忽略了多模态对应信息。受近期对比语言-图像预训练（CLIP）进展的启发，本文提出了一种端到端的CLIP驱动指代图像分割框架（CRIS）。为了有效迁移多模态知识，CRIS采用了视觉-语言解码和对比学习技术来实现文本到像素的对齐。具体而言，我们设计了一个视觉-语言解码器，用于将细粒度的语义信息从文本表示传播到每个像素级激活，从而增强两种模态之间的一致性。此外，我们引入了文本到像素的对比学习方法，显式地强制文本特征与相关像素级特征相似，并与无关特征不同。实验结果表明，在三个基准数据集上，所提出的框架在无需任何后处理的情况下显著优于现有最佳性能。代码将在后续发布。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

多模态表征

计算机视觉

Wang Zhaoqing ; Lu Yu ; Li Qiang ; Tao Xunqiang ; Guo Yandong ; Gong Mingming ; Liu Tongliang

摘要

指代图像分割旨在通过自然语言表达来分割目标对象。由于文本和图像之间的数据特性存在显著差异，网络在对齐文本和像素级特征方面面临巨大挑战。现有的方法通常利用预训练模型来促进学习，但分别从预训练模型中迁移语言和视觉知识，忽略了多模态对应信息。受近期对比语言-图像预训练（CLIP）进展的启发，本文提出了一种端到端的CLIP驱动指代图像分割框架（CRIS）。为了有效迁移多模态知识，CRIS采用了视觉-语言解码和对比学习技术来实现文本到像素的对齐。具体而言，我们设计了一个视觉-语言解码器，用于将细粒度的语义信息从文本表示传播到每个像素级激活，从而增强两种模态之间的一致性。此外，我们引入了文本到像素的对比学习方法，显式地强制文本特征与相关像素级特征相似，并与无关特征不同。实验结果表明，在三个基准数据集上，所提出的框架在无需任何后处理的情况下显著优于现有最佳性能。代码将在后续发布。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

CRIS：CLIP驱动的指代图像分割 | 论文 | HyperAI超神经