6 个月前

多模态表征

计算机视觉

Mubarak Shah Yogesh S Rawat Kevin Duarte Bruce McIntosh

摘要

视觉与自然语言的联合理解是人工智能领域一个具有广泛应用前景的挑战性问题。本文聚焦于视频与文本的融合，旨在实现从自然语言句子中对视频中的演员及其动作进行分割。我们提出一种基于胶囊网络（capsule-based）的方法，能够根据描述目标演员的自然语言查询，实现像素级的定位。该方法将视频和文本输入均编码为胶囊形式，相较于传统的基于卷积的特征表示，能够提供更有效的特征表达。我们设计了一种新颖的视觉-文本路由机制，实现了视频胶囊与文本胶囊的深度融合，从而成功定位目标演员及其动作。现有研究中的演员-动作定位任务主要集中于单帧图像的定位，而本文提出的方法则在视频的全部帧上进行定位。为验证所提网络在演员与动作视频定位任务中的潜力，我们对现有的演员-动作数据集（A2D）进行了扩展，为视频中所有帧添加了标注。实验结果表明，所提出的胶囊网络在基于文本选择的视频中演员与动作定位任务上具有显著有效性，且在单帧定位任务上也优于现有最先进的方法。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

多模态表征

计算机视觉

Mubarak Shah Yogesh S Rawat Kevin Duarte Bruce McIntosh

摘要

视觉与自然语言的联合理解是人工智能领域一个具有广泛应用前景的挑战性问题。本文聚焦于视频与文本的融合，旨在实现从自然语言句子中对视频中的演员及其动作进行分割。我们提出一种基于胶囊网络（capsule-based）的方法，能够根据描述目标演员的自然语言查询，实现像素级的定位。该方法将视频和文本输入均编码为胶囊形式，相较于传统的基于卷积的特征表示，能够提供更有效的特征表达。我们设计了一种新颖的视觉-文本路由机制，实现了视频胶囊与文本胶囊的深度融合，从而成功定位目标演员及其动作。现有研究中的演员-动作定位任务主要集中于单帧图像的定位，而本文提出的方法则在视频的全部帧上进行定位。为验证所提网络在演员与动作视频定位任务中的潜力，我们对现有的演员-动作数据集（A2D）进行了扩展，为视频中所有帧添加了标注。实验结果表明，所提出的胶囊网络在基于文本选择的视频中演员与动作定位任务上具有显著有效性，且在单帧定位任务上也优于现有最先进的方法。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供