6 个月前

计算机视觉

计算机视觉

Pranay Gupta Anirudh Thatipelli Aditya Aggarwal Shubh Maheshwari Neel Trivedi Sourav Das Ravi Kiran Sarvadevabhatla

摘要

本文系统研究了基于骨架的人体动作识别领域当前及未来的发展前沿。为探索真实场景中骨架-动作识别的挑战，我们提出了Skeletics-152，这是一个从Kinetics-700大规模动作数据集筛选并标注了三维姿态信息的RGB视频子集，具有良好的数据质量与标注一致性。为进一步拓展研究范围，我们引入Skeleton-Mimetics数据集，该数据集源自近期发布的Mimetics数据集，旨在涵盖脱离上下文环境的非典型动作。此外，我们还构建了Metaphorics数据集，该数据集包含对广受欢迎的社交游戏“傻瓜猜词”（Dumb Charades）以及诠释性舞蹈表演的YouTube视频进行caption风格标注的内容，以支持对隐喻性与表现性动作的理解。我们在NTU-120数据集上对当前最先进的模型进行了全面基准测试，并提供了多层次的性能评估。将NTU-120顶尖模型在上述新引入数据集上的表现进行分析，揭示了真实场景中动作识别所面临的显著挑战以及由此产生的领域差异（domain gap）。总体而言，本研究系统刻画了现有方法与数据集的优势与局限性。通过所提出的多个新数据集，本工作为人体动作识别研究开辟了新的前沿方向，推动该领域向更复杂、更贴近现实的应用场景发展。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

计算机视觉

计算机视觉

Pranay Gupta Anirudh Thatipelli Aditya Aggarwal Shubh Maheshwari Neel Trivedi Sourav Das Ravi Kiran Sarvadevabhatla

摘要

本文系统研究了基于骨架的人体动作识别领域当前及未来的发展前沿。为探索真实场景中骨架-动作识别的挑战，我们提出了Skeletics-152，这是一个从Kinetics-700大规模动作数据集筛选并标注了三维姿态信息的RGB视频子集，具有良好的数据质量与标注一致性。为进一步拓展研究范围，我们引入Skeleton-Mimetics数据集，该数据集源自近期发布的Mimetics数据集，旨在涵盖脱离上下文环境的非典型动作。此外，我们还构建了Metaphorics数据集，该数据集包含对广受欢迎的社交游戏“傻瓜猜词”（Dumb Charades）以及诠释性舞蹈表演的YouTube视频进行caption风格标注的内容，以支持对隐喻性与表现性动作的理解。我们在NTU-120数据集上对当前最先进的模型进行了全面基准测试，并提供了多层次的性能评估。将NTU-120顶尖模型在上述新引入数据集上的表现进行分析，揭示了真实场景中动作识别所面临的显著挑战以及由此产生的领域差异（domain gap）。总体而言，本研究系统刻画了现有方法与数据集的优势与局限性。通过所提出的多个新数据集，本工作为人体动作识别研究开辟了新的前沿方向，推动该领域向更复杂、更贴近现实的应用场景发展。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供