故障词元 Glitch Token

故障词元 (Glitch Token) 是指在大语言模型中,本应协助模型流畅运行的词元导致了异常输出。华中科技大学、南洋理工大学等高校联合组成的研究团队近日发表的一项研究 「Glitch Tokens in Large Language Models」表明,大模型中存在一些故障词元,这些词元会导致模型的输出结果出现错误或不一致。该研究团队针对故障词元的检测方法为减少大模型中与分词 (tokenizer) 相关的错误提供了有意义的见解。他们在研究中发现,故障词元在嵌入空间中有聚集效应,这启发他们可以通过聚类的算法来完成针对故障词元的识别工作。

Glitch Token 的产生可能由以下原因导致:

  1. 数据问题:训练数据中的错误、噪声或不一致可能导致模型学习到不正确的信息。
  2. 模型架构问题:模型架构的缺陷或限制可能导致 glitch token 的产生。
  3. 过拟合:模型过于拟合训练数据,可能导致在新数据上的表现不佳。
  4. 训练过程问题:例如不适当的学习率、训练轮数等。
  5. 数据增强问题:不适当的数据增强方法可能引入错误。
  6. 硬件故障或错误:在计算过程中可能出现硬件问题。
  7. 算法错误:模型实现中的算法错误。
  8. 模型规模问题:过大或过小的模型规模可能影响性能。
  9. 数据分布偏移:实际数据与训练数据的分布不同。
  10. 缺乏足够的训练数据:可能导致模型学习不充分。