故障词元 (Glitch Token) 是指在大语言模型中,本应协助模型流畅运行的词元导致了异常输出。华中科技大学、南洋理工大学等高校联合组成的研究团队近日发表的一项研究 「Glitch Tokens in Large Language Models」表明,大模型中存在一些故障词元,这些词元会导致模型的输出结果出现错误或不一致。该研究团队针对故障词元的检测方法为减少大模型中与分词 (tokenizer) 相关的错误提供了有意义的见解。他们在研究中发现,故障词元在嵌入空间中有聚集效应,这启发他们可以通过聚类的算法来完成针对故障词元的识别工作。
Glitch Token 的产生可能由以下原因导致: