HyperAIHyperAI

Command Palette

Search for a command to run...

通过解码过去改进语言模型

Siddhartha Brahma

摘要

高度正则化的长短期记忆网络(LSTMs)在语言模型的多个基准数据集上取得了令人印象深刻的结果。我们提出了一种新的正则化方法,该方法基于使用预测的下一个词的概率分布来解码上下文中的最后一个词。这使得模型倾向于保留更多的上下文信息,从而提高其预测下一个词的能力。我们的过去解码正则化(Past Decode Regularization, PDR)方法在参数数量和训练时间方面几乎没有额外开销,使用单一softmax时,在Penn Treebank数据集上的词级困惑度达到55.6,在WikiText-2数据集上的词级困惑度达到63.5。此外,我们还展示了PDR与混合softmax结合使用时的效果提升,在这两个数据集上分别实现了53.8和60.5的词级困惑度。另外,我们的方法在字符级语言模型的Penn Treebank字符数据集上达到了1.169比特每字符的性能。这些结果在其各自的应用场景中均代表了新的最先进水平。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供