
摘要
端到端手语翻译(Sign Language Translation, SLT)旨在直接将手语视频转换为口语文本,而无需中间表示。由于手语视频与文本之间存在模态差异,且标注数据稀缺,该任务一直面临巨大挑战。受此影响,端到端手语翻译(即视频到文本)的输入与输出分布相较于词元到文本(gloss-to-text)的翻译方式,其表现效果相对较弱。为应对上述挑战,本文提出一种新颖的跨模态数据增强框架——XmDA(Cross-modality Data Augmentation),通过利用手语词元翻译模型生成的伪词元-文本对,将强大的词元到文本翻译能力迁移至端到端手语翻译(即视频到文本)任务中。具体而言,XmDA框架包含两个核心组件:跨模态混合(cross-modality mix-up)与跨模态知识蒸馏(cross-modality knowledge distillation)。前者显式促进手语视频特征与词元嵌入之间的对齐,以弥合模态间差距;后者则利用词元到文本教师模型生成的知识,指导口语文本的生成过程,提升生成质量。在两个广泛使用的手语翻译数据集PHOENIX-2014T和CSL-Daily上的实验结果表明,所提出的XmDA框架在各项指标上均显著且一致地优于基线模型。大量消融分析进一步验证了我们的核心观点:XmDA通过减小视频与文本之间的表征距离,有效提升了口语文本的生成能力,同时显著改善了低频词和长句的处理效果。