9 天前

上下文至关重要:用于手语识别的自注意力机制

Fares Ben Slimane, Mohamed Bouguessa
上下文至关重要:用于手语识别的自注意力机制
摘要

本文提出了一种用于连续手语识别任务的注意力网络。所提出的方法利用相互独立的数据流来建模手语的多种模态,这些不同信息通道之间能够共享复杂的时序结构。为此,我们引入注意力机制以实现同步,并帮助捕捉不同手语成分之间的耦合依赖关系。尽管手语具有多通道特性,但手势形态在手语理解中占据核心地位。只有在正确语境中识别出手势形态,才能准确理解一个手语的含义。基于此,我们采用注意力机制,高效地聚合手势特征及其相应的时空上下文信息,从而提升手语识别性能。实验结果表明,该模型能够有效识别围绕主导手部及面部区域的关键手语成分。我们在基准数据集RWTH-PHOENIX-Weather 2014上对模型进行了测试,取得了具有竞争力的识别效果。