Command Palette
Search for a command to run...
Yuxi Li Yi Liu Gelei Deng Ying Zhang Wenjia Song et al

摘要
随着大型语言模型(LLMs)在各个领域的广泛应用,全面探究其潜在的异常行为及其带来的后果变得尤为迫切。在本研究中,我们首次提出并系统地探讨了一种名为“故障标记(glitch tokens)”的现象——即由现有分词器生成的异常标记,可能对模型响应质量造成负面影响。具体而言,我们在七种主流大型语言模型上开展实验,采用三种不同的分词器,共涉及182,517个标记。我们对识别出的故障标记进行了分类,并总结了大型语言模型在与故障标记交互时所表现出的各种异常症状。基于观察到故障标记在嵌入空间中呈现聚集分布的特性,我们提出了一种名为 GlitchHunter 的新型迭代聚类检测方法,用于高效识别故障标记。评估结果表明,我们的方法在八种开源大型语言模型上显著优于三种基线方法。据我们所知,本研究是首个对故障标记进行全面系统研究的工作。此外,本研究提出的检测方法为缓解大型语言模型中与分词相关的错误提供了宝贵的洞见。