Command Palette
Search for a command to run...
Yuhan Song Linhao Zhang Chuhan Wu Aiwei Liu Wei Jia Houfeng Wang Xiao Zhou

摘要
主流的语义语音分词器(semantic speech tokenizers)旨在捕捉语言内容,却出人意料地脆弱。我们发现,它们对与语义无关的声学扰动缺乏鲁棒性;即使在信噪比(SNR)较高、语音完全可懂的情况下,其输出的分词序列仍可能发生剧烈变化,从而显著增加下游大语言模型(LLMs)的学习负担。这种不稳定性源于两个根本缺陷:一是脆弱的单路径量化架构,二是训练信号远离中间分词结果的稳定性,因而对中间表示的稳定性缺乏关注。为解决这一问题,我们提出StableToken,一种通过共识驱动机制实现稳定性的分词器。其多分支架构并行处理音频信号,各分支的表示通过一种强大的按位投票机制进行融合,生成单一且稳定的分词序列。StableToken在分词稳定性方面达到了新的最先进水平,在多种噪声条件下显著降低了单位编辑距离(Unit Edit Distance, UED)。这种基础性的稳定性可直接转化为下游应用的优势,显著提升了语音大语言模型(SpeechLLMs)在各类任务中的鲁棒性。