18 天前

SEEG:语义增强的共言语手势生成

{Yi Yang, Pan Pan, Li Hu, Linchao Zhu, Qianyu Feng, Yuanzhi Liang}
SEEG:语义增强的共言语手势生成
摘要

手势生成是一项兼具实际应用价值 yet 挑战性的问题,旨在生成与语音内容相协调的手势。具有明确语义的手势能够更有效地传递信息,并增强观众的共情体验。现有方法主要关注手势与语音节奏的对齐,但难以深入挖掘语义信息,也难以显式建模具有语义意义的手势。为此,本文提出一种新颖的方法——语义赋能生成(Semantic Energized Generation, SEEG),实现语义感知的手势生成。该方法由两个核心模块构成:解耦挖掘模块(Decoupled Mining module, DEM)与语义赋能模块(Semantic Energizing Module, SEM)。DEM 从输入中分离出与语义无关的信息,并分别挖掘用于节拍手势与语义手势的特征;SEM 则负责语义学习并生成具有语义意义的手势。除表征相似性外,SEM 还要求生成结果在语义层面与真实标签保持一致。此外,SEM 中设计了语义提示器(semantic prompter),利用语义感知的监督信号引导预测结果,从而促使网络更有效地学习和生成具有语义表达能力的手势。在多个基准数据集上,基于三项指标的实验结果表明,SEEG 能够高效挖掘语义线索并生成高质量的语义手势。与其他方法相比,SEEG 在各类数据集上的语义感知评估中均表现出更优性能。定性分析进一步验证了 SEEG 在语义表达能力方面的显著优势。