1 个月前

LSTM网络的因式分解技巧

Oleksii Kuchaiev; Boris Ginsburg
LSTM网络的因式分解技巧
摘要

我们提出了两种简化方法,用于减少大型长短期记忆(LSTM)网络的参数数量并加速其训练过程:第一种方法是“设计矩阵分解”(matrix factorization by design),即将LSTM矩阵分解为两个较小矩阵的乘积;第二种方法是LSTM矩阵、输入和状态的分区(partitioning),将其划分为独立的组。这两种方法使我们能够在显著减少循环神经网络(RNN)参数的同时,大幅加快大型LSTM网络的训练速度,并达到接近当前最佳水平的困惑度(perplexity)。