6 个月前

计算机视觉

计算机视觉

Chenyun Wu Zhe Lin Scott Cohen Trung Bui Subhransu Maji

摘要

我们研究了根据自然语言短语对图像区域进行分割的问题，并在一项包含77,262张图像和345,486个短语-区域对应关系的新数据集上开展实验。该数据集基于Visual Genome数据集构建，利用其已有标注生成了一组具有挑战性的指代短语，并对这些短语所对应的图像区域进行了人工标注。我们数据集中的短语涵盖多个图像区域，描述了大量物体与非物体类别（stuff categories）及其属性，包括颜色、形状、组成部分，以及与其他图像实体之间的关系。实验结果表明，本数据集中概念的规模与多样性对现有最先进方法构成了显著挑战。为此，我们系统性地处理了这些概念的长尾分布问题，并提出了一种模块化方法，有效融合类别、属性与关系线索，其性能优于现有方法。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

计算机视觉

计算机视觉

Chenyun Wu Zhe Lin Scott Cohen Trung Bui Subhransu Maji

摘要

我们研究了根据自然语言短语对图像区域进行分割的问题，并在一项包含77,262张图像和345,486个短语-区域对应关系的新数据集上开展实验。该数据集基于Visual Genome数据集构建，利用其已有标注生成了一组具有挑战性的指代短语，并对这些短语所对应的图像区域进行了人工标注。我们数据集中的短语涵盖多个图像区域，描述了大量物体与非物体类别（stuff categories）及其属性，包括颜色、形状、组成部分，以及与其他图像实体之间的关系。实验结果表明，本数据集中概念的规模与多样性对现有最先进方法构成了显著挑战。为此，我们系统性地处理了这些概念的长尾分布问题，并提出了一种模块化方法，有效融合类别、属性与关系线索，其性能优于现有方法。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供