HyperAIHyperAI

Command Palette

Search for a command to run...

Transformer 语言模型的动态评估

Ben Krause Emmanuel Kahembwe Iain Murray Steve Renals

摘要

本研究笔记结合了两种最近在语言模型领域取得显著进展的方法:Transformer 和动态评估。Transformer 通过堆叠自注意力层来捕捉序列数据中的长距离依赖关系。动态评估则根据近期的序列历史对模型进行拟合,使其能够为重复出现的序列模式分配更高的概率。通过将动态评估应用于 Transformer-XL 模型,我们在 enwik8 数据集上的表现从 0.99 提升至 0.94 bit/char,在 text8 数据集上的表现从 1.08 提升至 1.04 bit/char,以及在 WikiText-103 数据集上的困惑度从 18.3 降低到 16.4。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供