2 个月前

大型语言模型中的Glitch Tokens：分类体系与有效检测

Yuxi Li Yi Liu Gelei Deng Ying Zhang Wenjia Song et al

摘要

随着大型语言模型（LLMs）在各个领域的广泛应用，全面探究其潜在的异常行为及其带来的后果变得尤为迫切。在本研究中，我们首次提出并系统地探讨了一种名为“故障标记（glitch tokens）”的现象——即由现有分词器生成的异常标记，可能对模型响应质量造成负面影响。具体而言，我们在七种主流大型语言模型上开展实验，采用三种不同的分词器，共涉及182,517个标记。我们对识别出的故障标记进行了分类，并总结了大型语言模型在与故障标记交互时所表现出的各种异常症状。基于观察到故障标记在嵌入空间中呈现聚集分布的特性，我们提出了一种名为 GlitchHunter 的新型迭代聚类检测方法，用于高效识别故障标记。评估结果表明，我们的方法在八种开源大型语言模型上显著优于三种基线方法。据我们所知，本研究是首个对故障标记进行全面系统研究的工作。此外，本研究提出的检测方法为缓解大型语言模型中与分词相关的错误提供了宝贵的洞见。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程

即用型 GPU

最优价格

立即开始

Hyper Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Command Palette

大型语言模型中的Glitch Tokens：分类体系与有效检测

Yuxi Li Yi Liu Gelei Deng Ying Zhang Wenjia Song et al

摘要

用 AI 构建 AI

Hyper Newsletters