17 天前

上下文手势：通过上下文感知的手势表示实现伴随言语的手势视频生成

Pinxin Liu, Pengfei Zhang, Hyeongwoo Kim, Pablo Garrido, Ari Sharpio, Kyle Olszewski

摘要

话语同步手势生成在创建逼真虚拟形象及提升人机交互体验方面具有重要意义，其核心在于实现手势与语音的精准同步。尽管近年来该领域取得了显著进展，现有方法在准确识别语音中的节奏性或语义触发信号以生成具有上下文关联的手势模式，以及实现像素级真实感方面仍面临挑战。为应对这些难题，我们提出了一种名为“上下文手势”（Contextual Gesture）的新框架，通过三个创新组件显著提升话语同步手势视频的生成效果：（1）时间对齐的语音-手势序列建模，实现两种模态在时间维度上的精确关联；（2）上下文感知的手势标记化机制，通过知识蒸馏将语音上下文信息融入动作模式的表示中；（3）结构感知的精细化模块，利用关键点间的边缘连接关系，增强手势骨架结构的一致性，从而提升视频生成质量。大量实验表明，Contextual Gesture 不仅能够生成与语音高度对齐、视觉逼真的手势视频，还支持长序列生成与视频手势编辑等应用，相关成果如图1所示。项目主页：https://andypinxinliu.github.io/Contextual-Gesture/。