8 个月前

计算机视觉

计算机视觉

Jiawei Zhao Ke Yan Yifan Zhao Xiaowei Guo Feiyue Huang Jia Li

摘要

在单张图像中同时识别多个对象仍然是一个具有挑战性的任务，涉及识别领域的多个问题，如不同对象尺度、不一致的外观以及混淆的类间关系。近期的研究主要通过统计标签共现和语言词嵌入来增强模糊的语义。不同于这些研究，在本文中，我们提出了一种基于Transformer的双关系学习框架，通过探索结构关系图和语义关系图两个方面的相关性来构建互补关系。结构关系图旨在通过开发跨尺度Transformer架构捕捉对象上下文中的长程相关性。语义图则动态建模图像对象的语义含义，并施加显式的语义感知约束。此外，我们将学到的结构关系融入到语义图中，构建了一个联合关系图以获得更稳健的表示。通过这两种有效的关系图的协同学习，我们的方法在两个流行的多标签识别基准数据集（即MS-COCO和VOC 2007）上达到了新的最先进水平。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

计算机视觉

计算机视觉

Jiawei Zhao Ke Yan Yifan Zhao Xiaowei Guo Feiyue Huang Jia Li

摘要

在单张图像中同时识别多个对象仍然是一个具有挑战性的任务，涉及识别领域的多个问题，如不同对象尺度、不一致的外观以及混淆的类间关系。近期的研究主要通过统计标签共现和语言词嵌入来增强模糊的语义。不同于这些研究，在本文中，我们提出了一种基于Transformer的双关系学习框架，通过探索结构关系图和语义关系图两个方面的相关性来构建互补关系。结构关系图旨在通过开发跨尺度Transformer架构捕捉对象上下文中的长程相关性。语义图则动态建模图像对象的语义含义，并施加显式的语义感知约束。此外，我们将学到的结构关系融入到语义图中，构建了一个联合关系图以获得更稳健的表示。通过这两种有效的关系图的协同学习，我们的方法在两个流行的多标签识别基准数据集（即MS-COCO和VOC 2007）上达到了新的最先进水平。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供