9 天前

用于手语翻译的密集时间卷积网络

{Dan Guo; Shuo Wang; Qi Tian;Meng Wang}
用于手语翻译的密集时间卷积网络
摘要

手势语言翻译(Sign Language Translation, SLT)旨在将手语视频转换为自然语言,但由于句子标签中的文本词汇与视觉动作之间缺乏精确的映射关系,该任务属于弱监督学习范畴。为实现手语动作与对应词汇之间的自动对齐与翻译,本文提出一种密集时间卷积网络(Dense Temporal Convolution Network, DenseTCN),该网络能够从多层次视角捕捉手语动作的语义特征。在该网络结构中,设计了一种时间卷积(Temporal Convolution, TC),用于学习相邻特征之间的短期相关性,并进一步构建为密集的分层结构。在第 $k^{\text{th}}$ 层TC中,将所有前序层的输出进行融合:(1)深层TC具有更大的感受野,通过分层内容传递机制有效捕捉长期时间上下文信息;(2)多视角融合策略整合了嵌入的短期时序学习与扩展的长期序列建模能力,从而更全面地表征手语动作的动态演变过程。最终,采用连接时序分类(Connectionist Temporal Classification, CTC)损失函数,并结合特征级融合策略,实现逐特征分类并生成最终的翻译句子。在两个主流手语基准数据集——PHOENIX 和 USTC-ConSents 上的实验结果表明,所提出的方法在多种评估指标上均表现出显著有效性,验证了其在手语翻译任务中的先进性能。