17 天前

手语翻译中的迭代原型方法

Huijie Yao, Wengang Zhou, Hao Feng, Hezhen Hu, Hao Zhou, Houqiang Li
手语翻译中的迭代原型方法
摘要

本文提出了一种名为IP-SLT的简单而高效的手语翻译(Sign Language Translation, SLT)框架。IP-SLT采用循环结构,并通过迭代优化的方式增强输入手语视频的语义表征(即原型)。该方法的设计理念模拟了人类阅读行为:一个句子可被反复理解,直至达成准确的语义把握。技术上,IP-SLT包含三个核心模块:特征提取、原型初始化与迭代原型优化。其中,特征提取模块负责提取视频的视觉特征;原型初始化模块基于这些特征生成初始原型;随后,迭代优化模块利用交叉注意力机制,将前一阶段的原型与原始视频特征进行融合,从而逐步完善原型表征。经过多次迭代,原型最终收敛至更加稳定且精确的状态,从而实现流畅且准确的翻译结果。此外,为更好地利用原型序列间的依赖关系,本文进一步提出一种迭代蒸馏损失(iterative distillation loss),将最终迭代阶段的知识压缩并传递至前期迭代过程,以提升整体模型的表达能力。由于在推理阶段仅需执行一次自回归解码,IP-SLT具有较低的计算开销,可轻松集成到各类现有SLT系统中,实现性能提升。在多个公开基准数据集上的大量实验验证了IP-SLT的有效性与优越性。