9 天前

SignBERT+:面向手部模型的自监督预训练用于手语理解

Hezhen Hu, Weichao Zhao, Wengang Zhou, Houqiang Li
SignBERT+:面向手部模型的自监督预训练用于手语理解
摘要

手部手势在手语表达中起着至关重要的作用。当前基于深度学习的手语理解(Sign Language Understanding, SLU)方法由于手语数据资源有限,容易出现过拟合问题,且模型可解释性较差。本文提出首个可自监督预训练的SignBERT+框架,并引入模型感知的手部先验机制。在该框架中,手部姿态被视作一种视觉标记(visual token),由现成的检测器提取获得。每个视觉标记均通过手势状态编码与时空位置编码进行嵌入。为充分挖掘现有手语数据资源的潜力,我们首先采用自监督学习建模其统计特性。为此,设计了多层次的掩码建模策略(关节级、帧级与片段级),以模拟常见的检测失败场景。结合上述掩码策略,我们进一步引入模型感知的手部先验,以更有效地捕捉序列中的层次化上下文信息。预训练完成后,我们精心设计了简洁而高效的下游任务预测头。为验证所提框架的有效性,我们在三个主要的SLU任务上进行了大量实验,涵盖孤立手语识别(Isolated SLR)、连续手语识别(Continuous SLR)以及手语翻译(SLT)。实验结果表明,所提方法显著提升了性能,达到了新的最先进水平,并取得了显著的性能增益。