8 个月前

计算机视觉

多模态表征

计算机视觉

Jiarui Xu Shalini De Mello Sifei Liu Wonmin Byeon Thomas Breuel Jan Kautz Xiaolong Wang

摘要

分组和识别是视觉场景理解的重要组成部分，例如在目标检测和语义分割中起着关键作用。通过端到端的深度学习系统，图像区域的分组通常通过来自像素级识别标签的自上而下的监督隐式地实现。然而，在本文中，我们提出将分组机制重新引入深度网络，这使得仅通过文本监督即可自动形成语义片段。我们提出了一种层次化的分组视觉变换器（GroupViT），该模型不仅超越了常规网格结构表示，还学会了将图像区域逐步分组成任意形状的较大片段。我们通过对比损失函数，在大规模图像-文本数据集上联合训练GroupViT和文本编码器。仅依靠文本监督且无需任何像素级注释，GroupViT学会了将语义区域聚合在一起，并成功以零样本的方式迁移到语义分割任务中，即无需进一步微调。它在PASCAL VOC 2012数据集上实现了52.3%的零样本mIoU精度，在PASCAL Context数据集上实现了22.4%的零样本mIoU精度，并且其性能与需要更高监督水平的最先进迁移学习方法相当。我们的代码已开源，地址为：https://github.com/NVlabs/GroupViT 。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

计算机视觉

多模态表征

计算机视觉

Jiarui Xu Shalini De Mello Sifei Liu Wonmin Byeon Thomas Breuel Jan Kautz Xiaolong Wang

摘要

分组和识别是视觉场景理解的重要组成部分，例如在目标检测和语义分割中起着关键作用。通过端到端的深度学习系统，图像区域的分组通常通过来自像素级识别标签的自上而下的监督隐式地实现。然而，在本文中，我们提出将分组机制重新引入深度网络，这使得仅通过文本监督即可自动形成语义片段。我们提出了一种层次化的分组视觉变换器（GroupViT），该模型不仅超越了常规网格结构表示，还学会了将图像区域逐步分组成任意形状的较大片段。我们通过对比损失函数，在大规模图像-文本数据集上联合训练GroupViT和文本编码器。仅依靠文本监督且无需任何像素级注释，GroupViT学会了将语义区域聚合在一起，并成功以零样本的方式迁移到语义分割任务中，即无需进一步微调。它在PASCAL VOC 2012数据集上实现了52.3%的零样本mIoU精度，在PASCAL Context数据集上实现了22.4%的零样本mIoU精度，并且其性能与需要更高监督水平的最先进迁移学习方法相当。我们的代码已开源，地址为：https://github.com/NVlabs/GroupViT 。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供