17 天前

基于词元级别的对比学习框架的手语翻译

Biao Fu, Peigen Ye, Liang Zhang, Pei Yu, Cong Hu, Yidong Chen, Xiaodong Shi
基于词元级别的对比学习框架的手语翻译
摘要

手语翻译(Sign Language Translation, SLT)是一项极具前景的技术,有望弥合聋人与听力人士之间的沟通鸿沟。近年来,研究者们开始采用神经机器翻译(Neural Machine Translation, NMT)方法实现SLT,这类方法通常需要大规模语料库进行训练。然而,目前公开可用的SLT语料库极为有限,导致词元(token)表示崩溃以及生成词元的准确性下降。为缓解这一问题,我们提出ConSLT——一种新颖的、基于词元级别的对 contrastive(对比)学习框架,用于手语翻译(ConSLT:Contrastive learning for Sign Language Translation)。该框架通过在SLT解码过程中引入词元级别的对比学习,有效学习词元表示。具体而言,ConSLT在解码阶段将每个词元及其由不同丢弃(dropout)掩码生成的对应词元视为正样本对,并随机从词表中采样 $K$ 个不在当前句子中的词元作为负样本。我们在两个基准数据集(PHOENIX14T 和 CSL-Daily)上针对端到端与级联(cascaded)两种设置进行了全面实验。实验结果表明,ConSLT在翻译质量上优于多个强基准模型。