8 个月前

多模态表征

计算机视觉

Anqi Zhu Qiuhong Ke* Mingming Gong James Bailey

摘要

尽管在监督下的基于骨架的动作识别方面已经取得了显著进展，但零样本识别的挑战仍然相对未被充分探索。本文认为，仅依赖于标签级语义和全局骨架特征的对齐不足以有效地将局部一致的视觉知识从已知类别迁移到未知类别。为了解决这一局限性，我们引入了语言与骨架的部分感知统一表示（PURLS），以探索局部和全局尺度上的视觉-语义对齐。PURLS 引入了一个新的提示模块和一个新颖的分区模块，用于生成不同层次上对齐的文本和视觉表示。前者利用预训练的 GPT-3 从原始动作标签中推断出全局和局部（基于身体部位和时间间隔）运动的精细描述。后者采用自适应采样策略，将所有与给定描述在语义上相关的身体关节运动的视觉特征进行分组。我们的方法在多种骨架/语言骨干网络和三个大规模数据集上进行了评估，即 NTU-RGB+D 60、NTU-RGB+D 120 和新整理的数据集 Kinetics-skeleton 200。结果展示了 PURLS 的普遍性和优越性能，超过了先前基于骨架的方法和其他领域的标准基线。源代码可访问 https://github.com/azzh1/PURLS。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

多模态表征

计算机视觉

Anqi Zhu Qiuhong Ke* Mingming Gong James Bailey

摘要

尽管在监督下的基于骨架的动作识别方面已经取得了显著进展，但零样本识别的挑战仍然相对未被充分探索。本文认为，仅依赖于标签级语义和全局骨架特征的对齐不足以有效地将局部一致的视觉知识从已知类别迁移到未知类别。为了解决这一局限性，我们引入了语言与骨架的部分感知统一表示（PURLS），以探索局部和全局尺度上的视觉-语义对齐。PURLS 引入了一个新的提示模块和一个新颖的分区模块，用于生成不同层次上对齐的文本和视觉表示。前者利用预训练的 GPT-3 从原始动作标签中推断出全局和局部（基于身体部位和时间间隔）运动的精细描述。后者采用自适应采样策略，将所有与给定描述在语义上相关的身体关节运动的视觉特征进行分组。我们的方法在多种骨架/语言骨干网络和三个大规模数据集上进行了评估，即 NTU-RGB+D 60、NTU-RGB+D 120 和新整理的数据集 Kinetics-skeleton 200。结果展示了 PURLS 的普遍性和优越性能，超过了先前基于骨架的方法和其他领域的标准基线。源代码可访问 https://github.com/azzh1/PURLS。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供