2 个月前

InterMask:通过协作掩码建模生成3D人体交互

Javed, Muhammad Gohar ; Guo, Chuan ; Cheng, Li ; Li, Xingyu
InterMask:通过协作掩码建模生成3D人体交互
摘要

从文本描述生成逼真的3D人际互动仍然是一个具有挑战性的任务。现有的方法通常基于扩散模型,往往生成的结果缺乏真实感和保真度。在本研究中,我们引入了InterMask,这是一种利用离散空间中的协作掩码建模生成人类互动的新框架。InterMask首先使用VQ-VAE将每个动作序列转换为2D离散运动令牌图。与传统的1D VQ令牌图不同,这种方法更好地保留了细粒度的空间-时间细节,并增强了每个令牌内的空间感知能力。在此表示基础上,InterMask利用生成式掩码建模框架对两个互动个体的令牌进行协同建模。这是通过采用专门设计用于捕捉复杂空间-时间相互依赖关系的Transformer架构来实现的。在训练过程中,它随机掩码两个个体的动作令牌,并学习预测这些令牌。在推理阶段,从完全掩码的序列开始,逐步填充两个个体的令牌。凭借其增强的动作表示、专用架构和有效的学习策略,InterMask实现了最先进的结果,生成了高保真且多样的人类互动。它在InterHuman数据集上的FID得分为5.154(相比之下in2IN为5.535),在InterX数据集上的FID得分为0.399(相比之下InterGen为5.207)。此外,InterMask无需重新设计模型或微调即可无缝支持反应生成。

InterMask:通过协作掩码建模生成3D人体交互 | 最新论文 | HyperAI超神经