6 个月前

多模态表征

计算机视觉

Xiaoxing Zhang Shuo Wang Huchuan Lu Jinqing Qi Lu Zhang Shu Yang

摘要

如何有效融合外观与运动信息以适应复杂场景，是基于光流的零样本视频对象分割领域中的一个核心问题。本文提出了一种注意力多模态协同网络（Attentive Multi-Modality Collaboration Network, AMC-Net），旨在统一利用外观与运动信息。具体而言，AMC-Net在两个阶段中融合多模态特征的鲁棒信息，并促进其协同作用。首先，我们在双边编码器分支上提出了一种多模态共注意力门（Multi-Modality Co-Attention Gate, MCG），通过门控机制构建共注意力得分，以平衡多模态特征的贡献，并抑制冗余及误导性信息。随后，我们设计了一种运动校正模块（Motion Correction Module, MCM），该模块引入视觉-运动注意力机制，通过利用外观与运动线索之间的时空对应关系，突出前景目标的特征表示。在三个公开的具有挑战性的基准数据集上的大量实验表明，所提出的AMC-Net在使用更少训练数据的情况下，仍能显著优于现有的最先进方法。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

多模态表征

计算机视觉

Xiaoxing Zhang Shuo Wang Huchuan Lu Jinqing Qi Lu Zhang Shu Yang

摘要

如何有效融合外观与运动信息以适应复杂场景，是基于光流的零样本视频对象分割领域中的一个核心问题。本文提出了一种注意力多模态协同网络（Attentive Multi-Modality Collaboration Network, AMC-Net），旨在统一利用外观与运动信息。具体而言，AMC-Net在两个阶段中融合多模态特征的鲁棒信息，并促进其协同作用。首先，我们在双边编码器分支上提出了一种多模态共注意力门（Multi-Modality Co-Attention Gate, MCG），通过门控机制构建共注意力得分，以平衡多模态特征的贡献，并抑制冗余及误导性信息。随后，我们设计了一种运动校正模块（Motion Correction Module, MCM），该模块引入视觉-运动注意力机制，通过利用外观与运动线索之间的时空对应关系，突出前景目标的特征表示。在三个公开的具有挑战性的基准数据集上的大量实验表明，所提出的AMC-Net在使用更少训练数据的情况下，仍能显著优于现有的最先进方法。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供