17 天前

基于STMC-Transformer的更优手语翻译

Kayo Yin, Jesse Read
基于STMC-Transformer的更优手语翻译
摘要

手语翻译(Sign Language Translation, SLT)首先通过手语识别(Sign Language Recognition, SLR)系统从视频中提取手语词汇(glosses),随后由翻译系统基于这些手语词汇生成对应的口语语言文本。本文聚焦于翻译环节,提出了一种新型模型STMC-Transformer,在PHOENIX-Weather 2014T数据集的手语词汇到文本(gloss-to-text)和视频到文本(video-to-text)翻译任务上,分别超越当前最先进水平超过5和7个BLEU值。在ASLG-PC12语料库上,该模型的性能提升超过16个BLEU值。此外,本文还揭示了现有方法依赖手语词汇监督所存在的问题。实验表明,本研究所提出的STMC-Transformer在视频到文本翻译任务上的表现,优于基于真实手语词汇(Ground Truth glosses, GT glosses)的翻译结果。这一发现与以往认为GT手语词汇翻译构成SLT性能上限的观点相矛盾,进而表明手语词汇并非手语的高效表征方式。因此,本文建议未来的手语翻译研究应采用识别与翻译模型的端到端联合训练策略,或探索更为合理的手语标注方案。