6 个月前

摘要

本研究致力于解决根据文本描述生成两名人类角色之间交互动作的问题。我们指出，某些交互行为（我们称之为“非对称交互”）涉及施动者与受动者之间的关系，其动作表现显著依赖于角色分配。然而，现有交互生成研究通常尝试学习单一标签与两名角色联合动作之间的对应关系，忽略了个体角色之间的差异性。为此，我们提出一种新型的“角色感知交互生成”问题，即在生成前明确指定角色身份。为确保文本语境与角色身份一致，我们将非对称交互的描述分别转化为主动语态和被动语态。我们提出一种新模型，能够根据指定角色生成相应动作，从而形成相互协调一致的交互行为。由于该模型独立建模每个角色的运动，因此可利用单人动作数据进行预训练，从而提取先验知识，提升交互生成的准确性。此外，我们受排列不变训练（Permutation Invariant Training, PIT）的启发，提出一种无需额外标注即可自动判断两个动作中哪一个对应施动者、哪一个对应受动者的机制。我们还揭示了现有评估指标在衡量生成交互质量时存在的局限性，并提出一种新的评估指标——“互一致性”（Mutual Consistency），以弥补这些不足。实验结果验证了所提方法的有效性，同时证明了新评估指标的必要性。相关代码已开源，地址为：https://github.com/line/Human-Interaction-Generation。

源 PDF 查看代码