HyperAIHyperAI

Command Palette

Search for a command to run...

双向关系推理网络用于指代图像分割

Huchuan Lu Lihe Zhang Jiayu Sun Guang Feng Zhiwei Hu

摘要

现有大多数方法并未显式建模视觉与语言之间的相互引导关系。在本工作中,我们提出了一种双向关系推理网络(Bi-directional Relationship Inferring Network, BRINet),用于建模跨模态信息之间的依赖关系。具体而言,视觉引导的语言注意力机制用于学习与每个视觉区域相对应的自适应语言上下文;结合语言引导的视觉注意力机制,构建了一个双向跨模态注意力模块(Bi-directional Cross-modal Attention Module, BCAM),以捕捉多模态特征之间的关联。由此,目标物体与指代表达的最终语义上下文能够被准确且一致地表示。此外,我们设计了一种门控双向融合模块(Gated Bi-directional Fusion Module, GBFM),用于整合多层次特征,并引入门控机制以引导多层次信息的双向流动。在四个基准数据集上的大量实验表明,所提出的方法在不同评估指标下均优于现有的最先进方法。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
双向关系推理网络用于指代图像分割 | 论文 | HyperAI超神经