
摘要
手语是一种视觉语言,通过手势动作和非手势元素来传递信息。在手语识别与翻译任务中,现有大多数方法直接将RGB视频编码为隐藏表示。然而,RGB视频作为原始信号,存在大量视觉冗余,导致编码器难以捕捉对理解手语至关重要的关键信息。为缓解这一问题并更好地融入领域知识(如手部形状与身体动作),我们提出一种双流视觉编码器,包含两个独立的分支:一个用于建模原始视频,另一个用于建模由现成关键点检测器生成的关键点序列。为增强两路特征之间的交互,我们探索了多种技术,包括双向横向连接、带辅助监督的符号金字塔网络,以及帧级自蒸馏方法。由此构建的模型称为TwoStream-SLR,具备出色的手语识别(SLR)能力。通过简单地附加一个额外的翻译网络,TwoStream-SLR可进一步扩展为手语翻译(SLT)模型——TwoStream-SLT。实验结果表明,我们的TwoStream-SLR与TwoStream-SLT在多个数据集(包括Phoenix-2014、Phoenix-2014T和CSL-Daily)上的手语识别与翻译任务中均达到了当前最优性能。代码与模型已开源,地址为:https://github.com/FangyunWei/SLRT。