Command Palette

Search for a command to run...

2 个月前

预测下一个标记的顺序可提升语言建模性能

Zayd M. K. Zuhri Erland Hilman Fuadi Alham Fikri Aji

预测下一个标记的顺序可提升语言建模性能

摘要

多标记预测(Multi-Token Prediction, MTP)被提出作为语言模型训练中提升下一个标记预测(Next-Token Prediction, NTP)的辅助目标,但其性能表现不一致,在标准自然语言处理(NLP)基准测试中常表现不佳。我们认为,MTP要求模型精确预测未来具体标记,这一目标作为辅助损失过于困难。为此,我们提出一种新的方法——标记顺序预测(Token Order Prediction, TOP),该方法通过学习排序损失(learning-to-rank loss)训练模型根据标记的接近程度对后续标记进行排序。与MTP需要多个Transformer层相比,TOP仅需增加一个额外的非嵌入层(unembedding layer)。我们分别使用NTP、MTP和TOP目标,对参数量为3.4亿、18亿和70亿的语言模型进行了预训练。在八个标准NLP基准测试上的实验结果表明,即使在大规模模型下,TOP的整体性能仍优于NTP和MTP。相关代码已开源,地址为:https://github.com/zaydzuhri/token-order-prediction。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
预测下一个标记的顺序可提升语言建模性能 | 论文 | HyperAI超神经