Command Palette
Search for a command to run...
Junyoung Seo Rodrigo Mira Alexandros Haliassos Stella Bounareli Honglie Chen Linh Tran Seungryong Kim Zoe Landgraf Jie Shen

摘要
基于音频驱动的人体动画模型在时序自回归生成过程中常出现身份漂移问题,即角色随时间推移逐渐丧失其身份特征。一种解决方案是生成关键帧作为中间时序锚点,以防止性能退化,但这种方法需要额外的关键帧生成阶段,且可能限制运动的自然性。为解决这一问题,我们提出“前瞻锚定”(Lookahead Anchoring)方法,该方法利用当前生成窗口之外的未来时间步的关键帧作为锚点,而非局限于当前窗口内的关键帧。这一机制将关键帧从固定的边界条件转变为具有方向性的引导信号:模型在响应即时音频输入的同时,持续向未来的锚点推进,从而通过持续的引导保持身份的一致性。此外,该方法还实现了自参考关键帧生成(self-keyframing),即以参考图像作为前瞻目标,完全无需额外的关键帧生成过程。我们发现,时序前瞻距离可自然地调节表现力与一致性之间的平衡:较大的前瞻距离允许更自由的运动,而较小的距离则增强身份的稳定性。在三种近期的人体动画模型上应用该方法后,Lookahead Anchoring 在唇部同步、身份保持和视觉质量方面均取得显著提升,验证了其在多种不同架构中均能有效增强时序建模能力。视频演示结果可访问以下链接查看:https://lookahead-anchoring.github.io。