8 个月前

多模态表征

计算机视觉

计算机视觉

Mengcheng Lan; Chaofeng Chen; Yiping Ke; Xinjiang Wang; Litong Feng; Wayne Zhang

摘要

开放词汇语义分割需要模型有效地将视觉表示与开放词汇语义标签相结合。尽管对比语言-图像预训练（CLIP）模型在从文本中识别视觉概念方面表现出色，但由于其定位能力有限，往往在分割连贯性上遇到困难。相比之下，视觉基础模型（VFMs）在获取空间一致的局部视觉表示方面表现出色，但在语义理解方面存在不足。本文介绍了一种创新框架——ProxyCLIP，旨在融合CLIP和VFMs的优势，以实现增强的开放词汇语义分割。ProxyCLIP利用来自VFMs的空间特征对应关系作为代理注意力机制来增强CLIP，从而继承了VFMs强大的局部一致性，并保持了CLIP出色的零样本迁移能力。我们提出了一种自适应归一化和掩码策略，以从不同类型的VFMs中获得代理注意力，实现跨模型的适应性。值得注意的是，作为一种无需训练的方法，ProxyCLIP显著提高了八个基准测试中的平均均值交并比（mIoU），从40.3提升至44.4，展示了其在弥合空间精度与语义丰富度之间差距方面的卓越效能，适用于开放词汇分割任务。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

多模态表征

计算机视觉

计算机视觉

Mengcheng Lan; Chaofeng Chen; Yiping Ke; Xinjiang Wang; Litong Feng; Wayne Zhang

摘要

开放词汇语义分割需要模型有效地将视觉表示与开放词汇语义标签相结合。尽管对比语言-图像预训练（CLIP）模型在从文本中识别视觉概念方面表现出色，但由于其定位能力有限，往往在分割连贯性上遇到困难。相比之下，视觉基础模型（VFMs）在获取空间一致的局部视觉表示方面表现出色，但在语义理解方面存在不足。本文介绍了一种创新框架——ProxyCLIP，旨在融合CLIP和VFMs的优势，以实现增强的开放词汇语义分割。ProxyCLIP利用来自VFMs的空间特征对应关系作为代理注意力机制来增强CLIP，从而继承了VFMs强大的局部一致性，并保持了CLIP出色的零样本迁移能力。我们提出了一种自适应归一化和掩码策略，以从不同类型的VFMs中获得代理注意力，实现跨模型的适应性。值得注意的是，作为一种无需训练的方法，ProxyCLIP显著提高了八个基准测试中的平均均值交并比（mIoU），从40.3提升至44.4，展示了其在弥合空间精度与语义丰富度之间差距方面的卓越效能，适用于开放词汇分割任务。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

ProxyCLIP：代理注意力机制提升CLIP在开放词汇分割中的表现 | 论文 | HyperAI超神经