
摘要
我们提出了一种新颖的深度学习方法,用于解决同步对齐与识别问题(即“序列到序列”学习)。该方法将问题分解为一系列专门化的专家系统,称为SubUNets。通过建模这些SubUNets之间的时空关系来完成任务,同时保持端到端的可训练性。该方法模拟了人类的学习与教学机制,具有多项显著优势:SubUNets使我们能够将领域特定的专家知识注入系统,以指导合适的中间表示形式;同时,它们还支持在不同相互关联的任务之间隐式地进行迁移学习,从而能够利用更广泛、更多样化的数据源。在实验中,我们验证了上述各项特性均能显著提升整体识别系统的性能,通过更有效地约束学习问题来实现。所提出的技术在手语识别这一具有挑战性的领域中得到了验证:在手势形状识别方面,取得了领先于以往方法超过30%的性能提升;此外,我们无需依赖对齐步骤来分割手语片段,即可获得与先前研究相当的手语识别准确率。