6 个月前

计算机视觉

Yi Yang Fan Ma Cheng Deng Hao Wang

摘要

基于语言查询的演员与动作视频分割旨在从视频中准确分割出语言描述所指的特定对象。该任务需要综合的语言推理能力以及细粒度的视频理解能力。以往的方法主要依赖动态卷积网络来对齐视觉特征与语义表示。然而，传统动态卷积在处理帧内每个区域时忽略了空间上下文信息，因此在复杂场景下难以区分外观相似的对象。为解决这一局限性，本文提出一种上下文调制的动态卷积网络。具体而言，在所提出的框架中，我们设计了一种上下文调制的动态卷积操作：针对特定区域的卷积核由语言描述和周围上下文特征共同生成，从而增强对局部语义与空间关系的建模能力。此外，我们还引入一个时序编码器，将运动信息融入视觉特征中，以进一步匹配语言查询的描述。在两个基准数据集——Actor-Action Dataset Sentences（A2D Sentences）和J-HMDB Sentences上的大量实验表明，所提出的方法显著优于当前最先进的技术水平。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

计算机视觉

Yi Yang Fan Ma Cheng Deng Hao Wang

摘要

基于语言查询的演员与动作视频分割旨在从视频中准确分割出语言描述所指的特定对象。该任务需要综合的语言推理能力以及细粒度的视频理解能力。以往的方法主要依赖动态卷积网络来对齐视觉特征与语义表示。然而，传统动态卷积在处理帧内每个区域时忽略了空间上下文信息，因此在复杂场景下难以区分外观相似的对象。为解决这一局限性，本文提出一种上下文调制的动态卷积网络。具体而言，在所提出的框架中，我们设计了一种上下文调制的动态卷积操作：针对特定区域的卷积核由语言描述和周围上下文特征共同生成，从而增强对局部语义与空间关系的建模能力。此外，我们还引入一个时序编码器，将运动信息融入视觉特征中，以进一步匹配语言查询的描述。在两个基准数据集——Actor-Action Dataset Sentences（A2D Sentences）和J-HMDB Sentences上的大量实验表明，所提出的方法显著优于当前最先进的技术水平。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供