6 个月前

计算机视觉

Tianrui Hui Shaofei Huang Si Liu Zihan Ding Guanbin Li Wenguan Wang Jizhong Han Fei Wang

摘要

语言查询视频角色分割旨在预测目标帧中执行自然语言查询所描述动作的角色的像素级掩码。现有方法通常在视频片段上采用3D卷积神经网络（3D CNN）作为通用编码器，以提取目标帧的混合时空特征。尽管3D卷积有助于识别执行查询动作的角色，但其不可避免地会引入相邻帧的时空信息错位，从而干扰目标帧的特征表示，导致分割结果不准确。为此，我们提出一种协同的时空编码器-解码器框架：在视频片段上使用3D时空编码器以识别查询动作，在目标帧上使用2D空间编码器以实现对查询角色的精确分割。在解码器中，我们设计了一种语言引导特征选择（Language-Guided Feature Selection, LGFS）模块，可灵活融合来自两个编码器的空间与时间特征。此外，我们还提出一种跨模态自适应调制（Cross-Modal Adaptive Modulation, CMAM）模块，用于在两个编码器的每一阶段动态重组与空间和时间相关联的语言特征，实现多模态特征的高效交互。所提方法在两个主流基准上均取得了新的最先进性能，且计算开销低于先前方法。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

计算机视觉

Tianrui Hui Shaofei Huang Si Liu Zihan Ding Guanbin Li Wenguan Wang Jizhong Han Fei Wang

摘要

语言查询视频角色分割旨在预测目标帧中执行自然语言查询所描述动作的角色的像素级掩码。现有方法通常在视频片段上采用3D卷积神经网络（3D CNN）作为通用编码器，以提取目标帧的混合时空特征。尽管3D卷积有助于识别执行查询动作的角色，但其不可避免地会引入相邻帧的时空信息错位，从而干扰目标帧的特征表示，导致分割结果不准确。为此，我们提出一种协同的时空编码器-解码器框架：在视频片段上使用3D时空编码器以识别查询动作，在目标帧上使用2D空间编码器以实现对查询角色的精确分割。在解码器中，我们设计了一种语言引导特征选择（Language-Guided Feature Selection, LGFS）模块，可灵活融合来自两个编码器的空间与时间特征。此外，我们还提出一种跨模态自适应调制（Cross-Modal Adaptive Modulation, CMAM）模块，用于在两个编码器的每一阶段动态重组与空间和时间相关联的语言特征，实现多模态特征的高效交互。所提方法在两个主流基准上均取得了新的最先进性能，且计算开销低于先前方法。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

基于语言查询的视频角色分割的协作时空建模 | 论文 | HyperAI超神经