17 天前

BEAT:面向对话手势生成的大规模语义与情感多模态数据集

Haiyang Liu, Zihao Zhu, Naoya Iwamoto, Yichen Peng, Zhengqing Li, You Zhou, Elif Bozkurt, Bo Zheng
BEAT:面向对话手势生成的大规模语义与情感多模态数据集
摘要

实现基于多模态数据的、逼真且类人化的合成对话手势,仍然是一个尚未解决的难题,主要原因在于缺乏可用的数据集、模型以及标准化的评估指标。为应对这一挑战,我们构建了名为Body-Expression-Audio-Text(BEAT)的多模态数据集,该数据集具备以下特点:i)包含30位说话者在八种不同情绪状态和四种不同语言下进行对话的76小时高质量多模态数据;ii)涵盖3200万帧级别的表情与语义相关性标注。对BEAT数据集的统计分析表明,对话手势不仅与已知的语音、文本和说话人身份相关,还与面部表情、情绪状态及语义内容存在显著关联。基于这一发现,我们提出了一种基线模型——级联动作网络(Cascaded Motion Network, CaMN),该模型采用级联架构,对上述六种模态进行联合建模,以实现手势合成。为评估生成手势的语义相关性,我们引入了一项新指标——语义相关性手势召回率(Semantic Relevance Gesture Recall, SRGR)。定性和定量实验结果均验证了该指标的有效性、真实标注数据的质量,以及基线模型在性能上达到当前最先进水平。据我们所知,BEAT是目前用于研究人类手势的规模最大、最全面的动作捕捉数据集,有望推动可控手势合成、跨模态分析以及情感手势识别等多个研究领域的发展。相关数据、代码与模型已公开发布于 https://pantomatrix.github.io/BEAT/。