2 个月前

Uni-Sign:面向大规模的统一手语理解

Zecheng Li; Wengang Zhou; Weichao Zhao; Kepeng Wu; Hezhen Hu; Houqiang Li
Uni-Sign:面向大规模的统一手语理解
摘要

手语预训练因其在各种手语理解(SLU)任务中提升性能的能力而受到越来越多的关注。然而,现有的方法往往存在预训练与微调之间的差距,导致结果次优。为了解决这一问题,我们提出了Uni-Sign,一种统一的预训练框架,通过大规模生成式预训练策略和新颖的微调范式消除了预训练与下游SLU任务之间的差距。首先,我们介绍了CSL-News,这是一个包含1,985小时视频及其文本注释的大规模中国手语(CSL)数据集,能够实现有效的大型预训练。其次,Uni-Sign通过在微调阶段将下游任务视为单一的手语翻译(SLT)任务来统一SLU任务,确保了预训练与微调之间知识的无缝转移。此外,我们引入了一个先验引导融合(PGF)模块和一个分数感知采样策略,以高效地融合姿态和RGB信息,解决了关键点不准确的问题并提高了计算效率。我们在多个SLU基准测试上的大量实验表明,Uni-Sign在多个下游SLU任务上达到了最先进的性能。数据集和代码可在github.com/ZechengLi19/Uni-Sign获取。