8 个月前

计算机视觉

计算机视觉

Rowan Zellers¹ Mark Yatskar¹,² Sam Thomson³ Yejin Choi¹,²

摘要

我们研究了生成视觉场景的结构化图表示的问题。本工作分析了图中的模体（motifs）的作用：即场景图中经常出现的子结构。我们在Visual Genome数据集中展示了这些重复结构的新定量见解。分析表明，对象标签对关系标签具有很高的预测性，但反之则不然。我们还发现，即使在较大的子图中也存在重复模式：超过50%的图包含涉及至少两个关系的模体。我们的分析激发了一种新的基线方法：给定对象检测结果，预测训练集中具有相同标签的对象对之间最频繁的关系。该基线方法在不同评估设置下相对于先前的最先进方法平均提高了3.6%。随后，我们引入了堆叠模体网络（Stacked Motif Networks），这是一种旨在捕捉场景图中高阶模体的新架构，进一步在我们的强基线方法上实现了平均7.1%的相对提升。我们的代码可在github.com/rowanz/neural-motifs获取。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

计算机视觉

计算机视觉

Rowan Zellers¹ Mark Yatskar¹,² Sam Thomson³ Yejin Choi¹,²

摘要

我们研究了生成视觉场景的结构化图表示的问题。本工作分析了图中的模体（motifs）的作用：即场景图中经常出现的子结构。我们在Visual Genome数据集中展示了这些重复结构的新定量见解。分析表明，对象标签对关系标签具有很高的预测性，但反之则不然。我们还发现，即使在较大的子图中也存在重复模式：超过50%的图包含涉及至少两个关系的模体。我们的分析激发了一种新的基线方法：给定对象检测结果，预测训练集中具有相同标签的对象对之间最频繁的关系。该基线方法在不同评估设置下相对于先前的最先进方法平均提高了3.6%。随后，我们引入了堆叠模体网络（Stacked Motif Networks），这是一种旨在捕捉场景图中高阶模体的新架构，进一步在我们的强基线方法上实现了平均7.1%的相对提升。我们的代码可在github.com/rowanz/neural-motifs获取。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供