13 天前
in2IN:利用个体信息生成人类交互
Pablo Ruiz Ponce, German Barquero, Cristina Palmero, Sergio Escalera, Jose Garcia-Rodriguez

摘要
基于文本描述生成人与人之间的运动交互,是机器人学、游戏开发、动画制作以及元宇宙等多个领域中极具应用价值的技术。然而,由于人际间动态关系具有高度的维度特性,建模这一过程面临巨大挑战。此外,如何准确捕捉交互过程中个体间的多样性也存在诸多难题。现有方法受限于可用数据集的规模与条件化策略,生成的交互动作在个体动态多样性方面表现有限。为此,我们提出 in2IN——一种新型的扩散模型,用于生成人与人之间的运动交互。该模型不仅依据整体交互的文本描述进行条件化,还引入了参与交互的每位个体所执行动作的独立描述作为额外条件。为训练该模型,我们利用大型语言模型对 InterHuman 数据集进行了扩展,增加了个体层面的动作描述信息。实验结果表明,in2IN 在 InterHuman 数据集上达到了当前最优的性能表现。为进一步提升现有交互数据集中的个体间多样性,我们进一步提出 DualMDM,一种模型组合技术。该方法将 in2IN 生成的交互动作与基于 HumanML3D 预训练的单人运动先验模型生成的动作进行融合。实验结果表明,DualMDM 所生成的运动在个体层面展现出更高的多样性,同时在保持人际间动作协调性的同时,增强了对个体动态行为的可控性。