6 个月前

统一多模态

多模态表征

Jianrong Zhang Yangsong Zhang Xiaodong Cun Shaoli Huang Yong Zhang Hongwei Zhao Hongtao Lu Xi Shen

摘要

在本工作中，我们研究了一种基于向量量化变分自编码器（Vector Quantised-Variational AutoEncoder, VQ-VAE）与生成式预训练变换器（Generative Pre-trained Transformer, GPT）的简单且广为人知的条件生成框架，用于从文本描述生成人类动作。我们表明，采用基于卷积神经网络（CNN）的VQ-VAE，并结合常用的训练策略（如指数移动平均EMA与码本重置Code Reset），即可获得高质量的离散动作表征。针对GPT模型，我们在训练过程中引入一种简单的数据扰动策略，以缓解训练与测试阶段之间的分布差异问题。尽管整体架构设计简洁，T2M-GPT在性能上仍优于多种现有方法，包括近期基于扩散模型（diffusion-based）的先进方法。例如，在当前规模最大的数据集HumanML3D上，我们的方法在文本与生成动作的一致性指标（R-Precision）上达到可比水平，同时在FID指标上显著优于MotionDiffuse（0.116 vs. 0.630）。此外，我们在HumanML3D数据集上进行了深入分析，发现数据集规模是当前方法面临的主要瓶颈之一。本研究结果表明，VQ-VAE在人类动作生成任务中依然具有强大的竞争力。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

统一多模态

多模态表征

Jianrong Zhang Yangsong Zhang Xiaodong Cun Shaoli Huang Yong Zhang Hongwei Zhao Hongtao Lu Xi Shen

摘要

在本工作中，我们研究了一种基于向量量化变分自编码器（Vector Quantised-Variational AutoEncoder, VQ-VAE）与生成式预训练变换器（Generative Pre-trained Transformer, GPT）的简单且广为人知的条件生成框架，用于从文本描述生成人类动作。我们表明，采用基于卷积神经网络（CNN）的VQ-VAE，并结合常用的训练策略（如指数移动平均EMA与码本重置Code Reset），即可获得高质量的离散动作表征。针对GPT模型，我们在训练过程中引入一种简单的数据扰动策略，以缓解训练与测试阶段之间的分布差异问题。尽管整体架构设计简洁，T2M-GPT在性能上仍优于多种现有方法，包括近期基于扩散模型（diffusion-based）的先进方法。例如，在当前规模最大的数据集HumanML3D上，我们的方法在文本与生成动作的一致性指标（R-Precision）上达到可比水平，同时在FID指标上显著优于MotionDiffuse（0.116 vs. 0.630）。此外，我们在HumanML3D数据集上进行了深入分析，发现数据集规模是当前方法面临的主要瓶颈之一。本研究结果表明，VQ-VAE在人类动作生成任务中依然具有强大的竞争力。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供