6 个月前

摘要

连续手语识别（Continuous Sign Language Recognition, CSLR）面临的一个关键挑战是如何从视频输入中高效捕捉随时间演进的长距离空间交互关系。为应对这一挑战，我们提出TCNet，一种混合神经网络架构，能够有效建模轨迹（Trajectories）与相关区域（Correlated regions）中的时空信息。TCNet的轨迹模块将视频帧转换为由连续视觉标记（visual tokens）构成的对齐轨迹。此外，针对每个查询标记（query token），网络在轨迹上学习自注意力机制，从而能够聚焦于特定运动区域中细粒度的时空模式，例如手指的细微运动。TCNet的关联模块引入了一种新颖的动态注意力机制，可有效过滤无关帧区域，并为每个查询标记动态地从相关区域分配键值标记（key-value tokens）。上述两项创新显著降低了计算开销与内存占用。我们在四个大规模数据集——PHOENIX14、PHOENIX14-T、CSL和CSL-Daily上进行了实验，结果表明，TCNet在各项任务中均持续达到当前最优性能。例如，在PHOENIX14和PHOENIX14-T数据集上，相比先前的最先进方法，我们的模型分别将词错误率（Word Error Rate）降低了1.5%和1.0%。

源 PDF