18 天前

神经网络手语翻译

{Richard Bowden, Oscar Koller, Hermann Ney, Simon Hadfield, Necati Cihan Camgoz}
神经网络手语翻译
摘要

手语识别(Sign Language Recognition, SLR)在过去二十年中一直是活跃的研究领域。然而,迄今为止的大多数研究都将SLR视为一个简单的手势识别问题。实际上,SLR旨在识别连续的手语序列,却忽视了手语所蕴含的丰富语法与语言结构——这些结构与口语语言存在显著差异。与此不同,本文提出手语翻译(Sign Language Translation, SLT)这一新问题:其目标是从手语视频中生成对应的口语语言翻译,充分考虑手语与口语在词序和语法结构上的根本差异。我们基于神经机器翻译(Neural Machine Translation, NMT)框架,分别在端到端和基于预训练模型(利用专家知识)的设置下,形式化定义了SLT任务。该框架使我们能够联合学习空间表征、底层语言模型,以及手语与口语之间的映射关系。为评估神经SLT模型的性能,我们构建了首个公开可用的连续手语翻译数据集——RWTH-PHOENIX-Weather 2014T。该数据集包含德国手语(DGS)天气播报视频的口语翻译结果及词素级(gloss-level)标注。数据集共包含超过950万帧图像,涵盖超过67,000个手语动作,来自超过1,000个手语词汇,以及来自超过2,800个词汇的超过99,000个德语词汇。我们针对多种SLT架构报告了定量与定性结果,以推动这一新兴研究领域的进一步发展。在翻译性能的理论上限(upper bound)计算中,BLEU-4得分达到19.26;而我们的端到端帧级与词素级分词网络分别实现了9.58和18.13的BLEU-4得分,显示出该任务的巨大潜力与挑战。

神经网络手语翻译 | 最新论文 | HyperAI超神经