2 个月前

使用辅助损失在RNN中学习更长期的依赖关系

Trieu H. Trinh; Andrew M. Dai; Minh-Thang Luong; Quoc V. Le
使用辅助损失在RNN中学习更长期的依赖关系
摘要

尽管在训练递归神经网络(RNNs)方面取得了近期进展,但在序列中捕捉长期依赖关系仍然是一个基本挑战。大多数方法采用时间反向传播(BPTT),但这种方法很难扩展到非常长的序列上。本文提出了一种简单的方法,通过在原始目标函数中添加无监督辅助损失来提高RNNs捕捉长期依赖关系的能力。这种辅助损失迫使RNNs要么重建序列中的先前事件,要么预测后续事件,从而使截断的时间反向传播在长序列中变得可行,并且也改进了完整的BPTT。我们在多种设置下评估了该方法,包括最长可达16,000个像素的逐像素图像分类任务以及一个真实的文档分类基准测试。实验结果表明,该方法在性能和资源效率方面优于其他竞争基线模型,包括其他递归模型和相同规模的Transformer。进一步分析揭示了辅助损失对优化和正则化的有益影响,以及在几乎没有或完全没有反向传播的情况下该方法的有效性。

使用辅助损失在RNN中学习更长期的依赖关系 | 最新论文 | HyperAI超神经