HyperAIHyperAI

Command Palette

Search for a command to run...

TokSuite:衡量分词器选择对语言模型行为的影响

Gül Sena Altıntaş Malikeh Ehghaghi Brian Lester Fengyuan Liu Wanru Zhao Marco Ciccone Colin Raffel

Abstract

分词器(Tokenizers)为语言模型(LMs)对文本的表示与处理提供了基础支撑。尽管分词在语言模型性能与行为中扮演着关键角色,但由于难以在孤立条件下衡量分词的影响,其作用机制至今仍不清晰。为解决这一研究需求,我们提出了TokSuite——一个包含多种模型与基准测试的工具集,旨在支持对分词影响的系统性研究。具体而言,我们训练了十四种语言模型,这些模型在架构、训练数据、训练预算和初始化方式上完全一致,仅使用不同的分词器。此外,我们精心构建并发布了新的基准测试,专门用于评估模型在现实世界中可能引发分词变化的扰动下的表现。通过TokSuite,研究者能够稳健地分离出分词器对模型的影响,从而揭示一系列新颖发现,深入阐明了多种主流分词器各自的优劣势。

一句话总结

来自多伦多大学与向量研究所、麦吉尔大学与Mila等机构的研究人员提出TokSuite,包含14个架构完全相同的语言模型(在统一条件下训练但采用不同分词器)以及面向现实扰动的基准测试,从而实现分词器影响的隔离分析,系统评估主流分词方法的优势与局限。

核心贡献

  • 由于难以在模型训练和评估中将分词器效应与其他变量分离,分词对语言模型性能的影响尚未被充分理解。
  • 作者提出TokSuite,包含十四个架构、数据和初始化完全相同的同构模型(仅分词器类型不同),以及专为评估现实文本扰动(影响分词效果)而设计的新多语言基准测试。
  • 该框架支持跨多种分词器和输入变体的受控分析,通过系统性模型评估揭示主流分词方法的具体优缺点。

引言

分词器从根本上决定了语言模型处理文本的方式,但其对模型行为的独立影响仍不明确——尽管它显著影响性能、训练效率和多语言能力,糟糕的选择甚至会使非英语语言的训练成本增加68%。现有研究存在关键局限:常将分词器效应与架构或数据等变量混淆,缺乏受控模型对比,且缺少针对拼写错误或复杂文字等现实输入变体的鲁棒性基准。作者通过TokSuite解决此问题:提供十四个仅分词器类型不同的严格受控模型(架构、数据和初始化完全一致),以及专为测量分词敏感扰动下性能而设计的新多语言基准测试,首次实现分词器效应的可靠隔离分析。

数据集

作者采用TokSuite基准数据集,通过现实文本扰动评估分词器鲁棒性。关键细节:

  • 组成与来源
    TokSuite包含约5,000个样本,涵盖五种语言(英语、土耳其语、意大利语、波斯语、中文)和三个领域:常识知识(80%数据)、基础数学(20题)及STEM(44题)。来源包括母语者翻译的手工整理标准选择题,并包含反映现实变体的扰动。

  • 子集详情

    • 多语言平行子集:40个标准英语问题(如"法国首都是...")翻译为全部五种语言。每个问题含10–20个扰动变体,经筛选确保模型在标准版上准确率>70%。扰动覆盖正字法错误(如用英文键盘输入土耳其语)、附加符号(波斯语可选标记)、形态学挑战(土耳其语黏着构词)、噪声(OCR错误)及Unicode格式。
    • 数学子集:20道基础算术题(如"100的10%是...")多语言翻译,含数字格式变体(如"1,028.415" vs "1.028,415")。
    • STEM子集:44道技术问题,含LaTeX表达式(如kgm2s2\frac{kg}{m^2 \text{s}^2}m2s2kg)、ASCII结构(如分子图)及领域特定格式。
  • 论文中的应用
    数据集用于评估14个仅分词器不同的同构语言模型(如Gemma-2、GPT-2、TokenMonster)。通过对比标准样本与扰动样本的准确率下降评估模型。混合比例侧重多语言覆盖(80%常识知识,20%数学/STEM),语言特异性扰动比例根据语言特征调整(如波斯语增加附加符号变体)。

  • 处理细节

    • 标准问题经"模型闭环"流程筛选,仅保留>70%模型能正确回答的问题。
    • 扰动由母语者手工整理(按语言/方言专长致谢)。
    • 零宽字符按分词器规则保留为新token、维持3字节形式或标准化。
    • 词汇统一框架建立分词器特有token间的双射映射,确保嵌入初始化一致性。
    • 无截断处理;完整评估扰动序列以测试端到端鲁棒性。

方法

作者通过统一框架评估分词对下游语言模型性能的影响,该框架在共享词汇空间下对齐多种分词器。核心是构建"超词汇表" SV\mathcal{SV}SV,即所有分词器 TTT 的独立词汇表 Vi\mathcal{V}_iVi 的并集。此统一在UTF-8字节层面执行,确保系统间字符串表示一致,兼容WordPiece的"##"前缀或Unigram的" _-"空格标记等分词器特有规范。随后为每个分词器建立映射函数 SV:V(X)SV(X)\mathrm{SV}: V(X) \mapsto \mathrm{SV}(X)SV:V(X)SV(X),将其原始token ID转换至 SV\mathcal{SV}SV 中的位置,保证共享token字符串无论使用何种分词器均映射到相同索引。这实现了重叠token的嵌入初始化一致性。

参考框架示意图,该图展示了GPT-2、TokenMonster、XGLM等分词器如何集成于统一架构下。同时说明分词行为如何随语言(土耳其语、中文、意大利语)、错误类型(OCR、正字法)及符号领域(表情符号、化学式)变化,并通过TokSuite框架映射至采用14种不同分词器训练的Llama-3.2 1B模型。

模型初始化沿用Llama-1B配置,但适配超词汇表大小 Esv=SV|E_{sv}| = |\mathcal{SV}|Esv=SV。各模型嵌入表 EEE 通过从共享超词汇表嵌入表 EsvE_{sv}Esv 选取行初始化,即 E(x)=Esv(sv(X))E(x) = E_{sv}(\mathrm{sv}(X))E(x)=Esv(sv(X))。这确保所有模型对 SV\mathcal{SV}SV 中任意token均以相同初始嵌入开始训练,从而将分词器设计效应与随机初始化方差隔离。训练数据包含多语言语料库(TR、ZH、IT、FA及FineWeb-Edu(EN)),影响最终词汇表的构成与覆盖范围。分词器特有预处理决策(如缩写、数字或空格处理)在训练中保留,但在对齐时标准化以维持系统间可比性。

实验

  • 在词汇量(259–256k tokens)和算法各异的14种分词器上验证:分词设计对鲁棒性的影响远超词汇规模;TokenMonster(仅英语,32k tokens)在多语言扰动中平均性能下降最低(0.18),优于Aya和XGLM等大型多语言分词器。
  • 通过TokSuite基准测试的相对准确率下降衡量鲁棒性:非英语噪声扰动导致的性能下降(0.22)显著高于英语(0.15);STEM和LaTeX内容引发严重下降(XGLM最高达0.30),而Unicode样式平均下降最高(0.53)。
  • 字节级分词器ByT5展现卓越噪声鲁棒性(多语言噪声平均下降0.18),对土耳其语/中文处理稳健(正字法错误下降0.04/0.06),但子词生育率指标显示效率欠佳。
  • 扩展分析表明:增大模型规模(1B vs 7B参数)或延长训练对鲁棒性提升甚微,证实分词设计而非模型规模主导各类扰动下的鲁棒特性。

作者在包含键盘错误、OCR、字符删除、空格移除及拼写错误的多语言噪声扰动上评估14种分词器,报告相对性能下降值(越低表示鲁棒性越强)。TokenMonster和ByT5平均下降最低(0.18),优于大词汇量模型;ByT5在中文OCR和空格移除中表现尤为突出。结果证实:分词算法设计(而非词汇量)是噪声鲁棒性的主导因素,尤其对非英语语言。

作者通过多类扰动的相对性能下降指标评估分词鲁棒性(值越低表示鲁棒性越强)。TokenMonster和Gemma-2-EBL在噪声和LaTeX处理中表现优异,而Gemma-2在Unicode样式和STEM任务中脆弱性较高。结果证实:分词设计(而非模型规模或词汇量)是决定各类输入扰动下鲁棒性的关键因素。

作者通过内在效率指标(子词生育率SF、续词比例PCW、跨语言均衡性)在五种语言上评估14种分词器。结果表明:ByT5和TokenMonster等小词汇量分词器SF和PCW更高,显示更激进的分段策略;而mBERT和XGLM等多语言分词器跨语言均衡性更优且平均SF更低,表明更平衡的跨语言压缩。词汇量本身不保证效率,部分大词汇量分词器在关键指标上表现反不如小词汇量分词器。

作者在包含附加符号、大小写变化、空格及格式的英语文本扰动上评估14种分词器,测量相对性能下降(值越低表示鲁棒性越强)。TokenMonster平均鲁棒性最佳(0.40),XGLM平均下降最高(0.53),在大写和倒置文本中表现尤为脆弱。结果证实:分词器设计(而非词汇量)对表面文本变体的鲁棒性具有决定性影响。

作者在包含历史拼写、语码转换、方言及等效表达的语言多样性扰动上评估14种分词器,发现TokenMonster和ByT5在多数类别中鲁棒性最强。结果表明:词汇量无法可靠预测性能,ByT5等小词汇量分词器在多项测试中优于大词汇量分词器,凸显分词算法设计比规模更重要。TokenMonster平均相对性能下降最低(0.08),尽管仅用英语训练且词汇量适中,仍展现出卓越一致性。


Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供