6 个月前

多模态表征

计算机视觉

Kanishk Jain Vineet Gandhi

摘要

我们研究了指代图像分割（Referring Image Segmentation, RIS），该任务旨在根据自然语言描述生成对应的分割图。高效解决RIS问题需要同时考虑视觉与语言模态之间的跨模态交互，以及各模态内部的 intra-modal 交互。现有方法存在局限性：要么以串行方式依次计算不同形式的交互（导致误差传播），要么完全忽略模态内部的交互。为克服这一局限，我们提出一种同步多模态融合模块（Synchronous Multi-Modal Fusion Module, SFM），实现三种交互的并行处理。此外，为生成更精细的分割掩码，我们设计了一种新型分层跨模态聚合模块（Hierarchical Cross-Modal Aggregation Module, HCAM），其中语言特征驱动视觉层次结构中上下文信息的高效传递与交换。我们在四个基准数据集上进行了全面的消融实验，验证了所提方法的有效性，结果表明其在性能上显著超越现有最先进（State-of-the-Art, SOTA）方法。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

多模态表征

计算机视觉

Kanishk Jain Vineet Gandhi

摘要

我们研究了指代图像分割（Referring Image Segmentation, RIS），该任务旨在根据自然语言描述生成对应的分割图。高效解决RIS问题需要同时考虑视觉与语言模态之间的跨模态交互，以及各模态内部的 intra-modal 交互。现有方法存在局限性：要么以串行方式依次计算不同形式的交互（导致误差传播），要么完全忽略模态内部的交互。为克服这一局限，我们提出一种同步多模态融合模块（Synchronous Multi-Modal Fusion Module, SFM），实现三种交互的并行处理。此外，为生成更精细的分割掩码，我们设计了一种新型分层跨模态聚合模块（Hierarchical Cross-Modal Aggregation Module, HCAM），其中语言特征驱动视觉层次结构中上下文信息的高效传递与交换。我们在四个基准数据集上进行了全面的消融实验，验证了所提方法的有效性，结果表明其在性能上显著超越现有最先进（State-of-the-Art, SOTA）方法。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

针对指代图像分割的全面多模态交互 | 论文 | HyperAI超神经