HyperAIHyperAI

Command Palette

Search for a command to run...

使用辅助损失在RNN中学习更长期的依赖关系

Trieu H. Trinh; Andrew M. Dai; Minh-Thang Luong; Quoc V. Le

摘要

尽管在训练递归神经网络(RNNs)方面取得了近期进展,但在序列中捕捉长期依赖关系仍然是一个基本挑战。大多数方法采用时间反向传播(BPTT),但这种方法很难扩展到非常长的序列上。本文提出了一种简单的方法,通过在原始目标函数中添加无监督辅助损失来提高RNNs捕捉长期依赖关系的能力。这种辅助损失迫使RNNs要么重建序列中的先前事件,要么预测后续事件,从而使截断的时间反向传播在长序列中变得可行,并且也改进了完整的BPTT。我们在多种设置下评估了该方法,包括最长可达16,000个像素的逐像素图像分类任务以及一个真实的文档分类基准测试。实验结果表明,该方法在性能和资源效率方面优于其他竞争基线模型,包括其他递归模型和相同规模的Transformer。进一步分析揭示了辅助损失对优化和正则化的有益影响,以及在几乎没有或完全没有反向传播的情况下该方法的有效性。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供