17 天前
具有线性竞争单元的随机Transformer网络:在端到端SL翻译中的应用
Andreas Voskou, Konstantinos P. Panousis, Dimitrios Kosmopoulos, Dimitris N. Metaxas, Sotirios Chatzis

摘要
实现手语翻译(Sign Language Translation, SLT)的自动化是一项具有挑战性的现实应用。尽管该领域具有重要的社会意义,但相关研究进展仍然较为有限。关键问题在于,现有表现良好的方法通常依赖于难以获取的手语词素(gloss)序列真值数据。本文提出一种端到端的SLT模型,有效缓解了对这类标注数据的依赖:该模型无需显式使用词素序列,仅需文本真值作为监督信号。这与现有端到端模型形成鲜明对比——后者通常在中间模型阶段引入词素序列作为识别模态,或将其作为与SLT模型联合训练的并行输出。 本文提出的模型基于Transformer架构,并引入了一类新型网络层,主要包括以下三个创新:(i)采用局部胜者为王(Local Winner-Takes-All, LWTA)层结合随机胜者采样机制,替代传统ReLU激活函数;(ii)引入基于变分推断估计后验分布的随机权重机制;(iii)在推理阶段采用一种权重压缩技术,利用估计的后验方差实现大规模、近乎无损的模型压缩。 实验结果表明,该方法在PHOENIX 2014T基准测试上达到了当前最优的BLEU-4得分,且在训练过程中完全未使用词素序列信息,同时模型内存占用减少超过70%。这一成果为无需依赖复杂词素标注的高效、轻量化手语翻译系统提供了新的技术路径。