8 个月前

多模态表征

计算机视觉

Hanoona Rasheed extsuperscript1,* Muhammad Maaz extsuperscript1,* Muhammad Uzair Khattak extsuperscript1 Salman Khan extsuperscript1,2 Fahad Shahbaz Khan extsuperscript1,3

摘要

现有的开放词汇对象检测器通常通过利用不同形式的弱监督来扩大其词汇量，这有助于在推理时对新对象进行泛化。在开放词汇检测（OVD）中，两种常用的弱监督形式包括预训练的CLIP模型和图像级监督。我们注意到，这两种监督模式对于检测任务来说并不是最优对齐的：CLIP模型是基于图像-文本对进行训练的，缺乏对对象的精确定位；而图像级监督则使用了一些启发式方法，这些方法不能准确指定局部对象区域。在这项工作中，我们提出通过执行来自CLIP模型的语言嵌入的对象中心对齐来解决这一问题。此外，我们仅使用图像级监督并通过伪标签过程对对象进行视觉定位，该过程提供了高质量的对象建议，并有助于在训练过程中扩展词汇量。我们通过一种新颖的权重转移函数建立了上述两种对象对齐策略之间的桥梁，该函数聚合了它们的互补优势。本质上，所提出的模型旨在最小化OVD设置下对象和图像中心表示之间的差距。在COCO基准测试中，我们的方法在新类别上达到了36.6 AP50，比之前最佳性能提高了8.2个百分点。对于LVIS数据集，我们在罕见类别的mask AP上超过了最先进的ViLD模型5.0个百分点，在总体上也领先3.4个百分点。代码：https://github.com/hanoonaR/object-centric-ovd。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

多模态表征

计算机视觉

Hanoona Rasheed extsuperscript1,* Muhammad Maaz extsuperscript1,* Muhammad Uzair Khattak extsuperscript1 Salman Khan extsuperscript1,2 Fahad Shahbaz Khan extsuperscript1,3

摘要

现有的开放词汇对象检测器通常通过利用不同形式的弱监督来扩大其词汇量，这有助于在推理时对新对象进行泛化。在开放词汇检测（OVD）中，两种常用的弱监督形式包括预训练的CLIP模型和图像级监督。我们注意到，这两种监督模式对于检测任务来说并不是最优对齐的：CLIP模型是基于图像-文本对进行训练的，缺乏对对象的精确定位；而图像级监督则使用了一些启发式方法，这些方法不能准确指定局部对象区域。在这项工作中，我们提出通过执行来自CLIP模型的语言嵌入的对象中心对齐来解决这一问题。此外，我们仅使用图像级监督并通过伪标签过程对对象进行视觉定位，该过程提供了高质量的对象建议，并有助于在训练过程中扩展词汇量。我们通过一种新颖的权重转移函数建立了上述两种对象对齐策略之间的桥梁，该函数聚合了它们的互补优势。本质上，所提出的模型旨在最小化OVD设置下对象和图像中心表示之间的差距。在COCO基准测试中，我们的方法在新类别上达到了36.6 AP50，比之前最佳性能提高了8.2个百分点。对于LVIS数据集，我们在罕见类别的mask AP上超过了最先进的ViLD模型5.0个百分点，在总体上也领先3.4个百分点。代码：https://github.com/hanoonaR/object-centric-ovd。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供