2 个月前

GroupViT:语义分割从文本监督中涌现

Jiarui Xu; Shalini De Mello; Sifei Liu; Wonmin Byeon; Thomas Breuel; Jan Kautz; Xiaolong Wang
GroupViT:语义分割从文本监督中涌现
摘要

分组和识别是视觉场景理解的重要组成部分,例如在目标检测和语义分割中起着关键作用。通过端到端的深度学习系统,图像区域的分组通常通过来自像素级识别标签的自上而下的监督隐式地实现。然而,在本文中,我们提出将分组机制重新引入深度网络,这使得仅通过文本监督即可自动形成语义片段。我们提出了一种层次化的分组视觉变换器(GroupViT),该模型不仅超越了常规网格结构表示,还学会了将图像区域逐步分组成任意形状的较大片段。我们通过对比损失函数,在大规模图像-文本数据集上联合训练GroupViT和文本编码器。仅依靠文本监督且无需任何像素级注释,GroupViT学会了将语义区域聚合在一起,并成功以零样本的方式迁移到语义分割任务中,即无需进一步微调。它在PASCAL VOC 2012数据集上实现了52.3%的零样本mIoU精度,在PASCAL Context数据集上实现了22.4%的零样本mIoU精度,并且其性能与需要更高监督水平的最先进迁移学习方法相当。我们的代码已开源,地址为:https://github.com/NVlabs/GroupViT 。

GroupViT:语义分割从文本监督中涌现 | 最新论文 | HyperAI超神经