8 个月前

统一多模态

Karim Radouane Julien Lagarde Sylvie Ranwez Andon Tchechmedjiev

摘要

近期，关于文本条件下的生成人类动作的研究工作广泛且多样。然而，反向任务即动作描述（motion captioning）方面的进展则相对缓慢。在本文中，我们介绍了一种新颖的架构设计，通过强调时空和自适应注意力机制来提高文本生成的质量，从而增强可解释性。为了促进类似人类的推理过程，我们提出了一些训练期间引导注意力的方法，这些方法着重于随时间变化的相关骨骼区域，并区分与动作相关的词汇。我们通过相关直方图和密度分布对模型的可解释性进行了讨论和量化。此外，我们利用可解释性来获取关于人类动作的细粒度信息，包括动作定位、身体部位识别以及区分与动作相关的词汇。最后，我们探讨了所提出方法在其他任务中的迁移能力。实验结果表明，注意力引导不仅使描述具有可解释性，还提升了性能，优于参数量更大但不可解释的现有最先进系统。代码已发布在：https://github.com/rd20karim/M2T-Interpretable。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

统一多模态

Karim Radouane Julien Lagarde Sylvie Ranwez Andon Tchechmedjiev

摘要

近期，关于文本条件下的生成人类动作的研究工作广泛且多样。然而，反向任务即动作描述（motion captioning）方面的进展则相对缓慢。在本文中，我们介绍了一种新颖的架构设计，通过强调时空和自适应注意力机制来提高文本生成的质量，从而增强可解释性。为了促进类似人类的推理过程，我们提出了一些训练期间引导注意力的方法，这些方法着重于随时间变化的相关骨骼区域，并区分与动作相关的词汇。我们通过相关直方图和密度分布对模型的可解释性进行了讨论和量化。此外，我们利用可解释性来获取关于人类动作的细粒度信息，包括动作定位、身体部位识别以及区分与动作相关的词汇。最后，我们探讨了所提出方法在其他任务中的迁移能力。实验结果表明，注意力引导不仅使描述具有可解释性，还提升了性能，优于参数量更大但不可解释的现有最先进系统。代码已发布在：https://github.com/rd20karim/M2T-Interpretable。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供