2 个月前

用于高度并行化的递归的简单循环单元

Tao Lei; Yu Zhang; Sida I. Wang; Hui Dai; Yoav Artzi
用于高度并行化的递归的简单循环单元
摘要

常见的循环神经网络架构由于其状态计算难以并行化而扩展性较差。在本研究中,我们提出了一种轻量级的循环单元——简单循环单元(Simple Recurrent Unit, SRU),该单元在模型容量和可扩展性之间取得了平衡。SRU旨在提供强大的递归能力,支持高度并行化的实现,并通过精心设计的初始化方法来促进深度模型的训练。我们在多个自然语言处理任务上验证了SRU的有效性。在分类和问答数据集上,SRU相比经过cuDNN优化的LSTM实现了5到9倍的速度提升,并且在性能上优于LSTM和卷积模型。此外,通过将SRU集成到架构中,我们在翻译任务上平均获得了0.7个BLEU分的提升,超过了Transformer模型的表现。