8 个月前

计算机视觉

多模态表征

计算机视觉

Xingning Dong Tian Gan Xuemeng Song Jianlong Wu Yuan Cheng Liqiang Nie

摘要

场景图生成（Scene Graph Generation）通常遵循一个标准的编码器-解码器管道，旨在首先对给定图像中的视觉内容进行编码，然后将其解析为一个紧凑的摘要图。现有的场景图生成方法不仅忽视了视觉和语言之间的模态融合不足问题，还由于关系预测的偏差而无法提供丰富的谓词信息，导致场景图生成距离实际应用仍有较大差距。为此，本文首先提出了一种新颖的堆叠混合注意力网络（Stacked Hybrid-Attention network），该网络促进了模态内的精炼以及模态间的交互，作为编码器使用。接着，我们设计了一种创新的组协同学习策略来优化解码器。具体而言，鉴于单一分类器在处理极度不平衡的数据集时识别能力有限这一观察结果，我们首先部署了一组专门用于区分不同类别子集的分类器，然后从两个方面协同优化这些分类器以促进无偏见的场景图生成。在VG和GQA数据集上进行的实验表明，我们在无偏见指标上不仅建立了新的最先进水平，而且与两种基线方法相比，性能几乎翻倍。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

计算机视觉

多模态表征

计算机视觉

Xingning Dong Tian Gan Xuemeng Song Jianlong Wu Yuan Cheng Liqiang Nie

摘要

场景图生成（Scene Graph Generation）通常遵循一个标准的编码器-解码器管道，旨在首先对给定图像中的视觉内容进行编码，然后将其解析为一个紧凑的摘要图。现有的场景图生成方法不仅忽视了视觉和语言之间的模态融合不足问题，还由于关系预测的偏差而无法提供丰富的谓词信息，导致场景图生成距离实际应用仍有较大差距。为此，本文首先提出了一种新颖的堆叠混合注意力网络（Stacked Hybrid-Attention network），该网络促进了模态内的精炼以及模态间的交互，作为编码器使用。接着，我们设计了一种创新的组协同学习策略来优化解码器。具体而言，鉴于单一分类器在处理极度不平衡的数据集时识别能力有限这一观察结果，我们首先部署了一组专门用于区分不同类别子集的分类器，然后从两个方面协同优化这些分类器以促进无偏见的场景图生成。在VG和GQA数据集上进行的实验表明，我们在无偏见指标上不仅建立了新的最先进水平，而且与两种基线方法相比，性能几乎翻倍。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供