9 天前

用于连续手语识别的多状态手势词的随机细粒度标注

{Brian Mak, Zhe Niu}
用于连续手语识别的多状态手势词的随机细粒度标注
摘要

本文提出了一种针对基于Transformer编码器与连接时序分类(CTC)的连续手语识别(CSLR)系统的新型随机建模方法。尤为重要的是,我们为每个手语词汇(gloss)建模多个状态,且状态数量被建模为服从可学习概率分布的分类随机变量,从而为CTC解码器的训练提供具有随机性与细粒度特性的标签。此外,我们进一步提出了随机帧丢弃机制与梯度停止方法,以有效应对在使用CTC损失训练Transformer模型时出现的严重过拟合问题。这两种方法还显著降低了训练过程中的计算开销,包括时间与空间成本。我们在多个主流的CSLR数据集上对所提模型进行了评估,实验结果表明,该方法在性能上优于当前最先进的技术。