2 个月前

使用辅助损失在RNN中学习更长期的依赖关系

Trieu H. Trinh; Andrew M. Dai; Minh-Thang Luong; Quoc V. Le

摘要

尽管在训练递归神经网络（RNNs）方面取得了近期进展，但在序列中捕捉长期依赖关系仍然是一个基本挑战。大多数方法采用时间反向传播（BPTT），但这种方法很难扩展到非常长的序列上。本文提出了一种简单的方法，通过在原始目标函数中添加无监督辅助损失来提高RNNs捕捉长期依赖关系的能力。这种辅助损失迫使RNNs要么重建序列中的先前事件，要么预测后续事件，从而使截断的时间反向传播在长序列中变得可行，并且也改进了完整的BPTT。我们在多种设置下评估了该方法，包括最长可达16,000个像素的逐像素图像分类任务以及一个真实的文档分类基准测试。实验结果表明，该方法在性能和资源效率方面优于其他竞争基线模型，包括其他递归模型和相同规模的Transformer。进一步分析揭示了辅助损失对优化和正则化的有益影响，以及在几乎没有或完全没有反向传播的情况下该方法的有效性。