6 个月前

统一多模态

计算机视觉

Mathis Petrovich Michael J. Black Gül Varol

摘要

我们致力于解决从文本描述生成多样化三维人类动作的问题。这一具有挑战性的任务需要对两种模态进行联合建模：一方面，从文本中理解并提取与人类相关的有用信息；另一方面，生成合理且逼真的动作姿态序列。与以往大多数仅关注从文本描述生成单一确定性动作的工作不同，本文提出一种变分方法，能够生成多种多样、具有差异性的三维人类动作。我们提出了 TEMOS——一种基于文本条件的生成模型，该模型结合了基于人类运动数据的变分自编码器（VAE）训练机制，以及一个文本编码器，后者可生成与VAE隐空间相兼容的分布参数。实验表明，TEMOS框架不仅能生成如以往工作所实现的基于骨骼的动画，还能生成更具表现力的SMPL人体运动。我们在KIT Motion-Language基准数据集上对所提方法进行了评估，尽管模型结构相对简洁，但仍显著优于当前最先进的方法。相关代码与模型已发布于我们的项目主页。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

统一多模态

计算机视觉

Mathis Petrovich Michael J. Black Gül Varol

摘要

我们致力于解决从文本描述生成多样化三维人类动作的问题。这一具有挑战性的任务需要对两种模态进行联合建模：一方面，从文本中理解并提取与人类相关的有用信息；另一方面，生成合理且逼真的动作姿态序列。与以往大多数仅关注从文本描述生成单一确定性动作的工作不同，本文提出一种变分方法，能够生成多种多样、具有差异性的三维人类动作。我们提出了 TEMOS——一种基于文本条件的生成模型，该模型结合了基于人类运动数据的变分自编码器（VAE）训练机制，以及一个文本编码器，后者可生成与VAE隐空间相兼容的分布参数。实验表明，TEMOS框架不仅能生成如以往工作所实现的基于骨骼的动画，还能生成更具表现力的SMPL人体运动。我们在KIT Motion-Language基准数据集上对所提方法进行了评估，尽管模型结构相对简洁，但仍显著优于当前最先进的方法。相关代码与模型已发布于我们的项目主页。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供