6 个月前

统一多模态

Samaneh Azadi Akbar Shah Thomas Hayes Devi Parikh Sonal Gupta

摘要

文本引导的人体运动生成因其在动画制作与机器人技术等领域的广泛应用而受到广泛关注。近年来，扩散模型在运动生成中的应用显著提升了生成运动的质量。然而，现有方法受限于对相对小规模动作捕捉数据的依赖，导致在面对更具多样性、真实场景中的文本提示时表现不佳。本文提出了一种名为 Make-An-Animation 的文本条件人体运动生成模型，该模型通过从大规模图像-文本数据集中学习更丰富的姿态与文本提示，显著提升了生成性能，超越了以往方法。Make-An-Animation 采用两阶段训练策略：首先，在从图像-文本数据集中提取的（文本，静态伪姿态）成对数据上进行预训练；随后，在动作捕捉数据上进行微调，并引入额外的网络层以建模时间维度。与以往用于运动生成的扩散模型不同，Make-An-Animation 采用与近期文本到视频生成模型相似的 U-Net 架构。通过人类评估运动的真实感及与输入文本的对齐程度，实验结果表明，本模型在文本到运动生成任务上达到了当前最先进的性能水平。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

统一多模态

Samaneh Azadi Akbar Shah Thomas Hayes Devi Parikh Sonal Gupta

摘要

文本引导的人体运动生成因其在动画制作与机器人技术等领域的广泛应用而受到广泛关注。近年来，扩散模型在运动生成中的应用显著提升了生成运动的质量。然而，现有方法受限于对相对小规模动作捕捉数据的依赖，导致在面对更具多样性、真实场景中的文本提示时表现不佳。本文提出了一种名为 Make-An-Animation 的文本条件人体运动生成模型，该模型通过从大规模图像-文本数据集中学习更丰富的姿态与文本提示，显著提升了生成性能，超越了以往方法。Make-An-Animation 采用两阶段训练策略：首先，在从图像-文本数据集中提取的（文本，静态伪姿态）成对数据上进行预训练；随后，在动作捕捉数据上进行微调，并引入额外的网络层以建模时间维度。与以往用于运动生成的扩散模型不同，Make-An-Animation 采用与近期文本到视频生成模型相似的 U-Net 架构。通过人类评估运动的真实感及与输入文本的对齐程度，实验结果表明，本模型在文本到运动生成任务上达到了当前最先进的性能水平。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供