Command Palette
Search for a command to run...
StableToken : un tokenizer sémantique pour la parole résistant au bruit pour des modèles linguistiques vocaux résilients
Yuhan Song Linhao Zhang Chuhan Wu Aiwei Liu Wei Jia Houfeng Wang Xiao Zhou

Résumé
Les tokeniseurs sémantiques courants, conçus pour capter le contenu linguistique, se révèlent surprenamment fragiles. Nous constatons qu’ils ne sont pas robustes aux perturbations acoustiques sans lien avec le sens : même à des ratios signal-bruit (SNR) élevés, où la parole est parfaitement intelligible, leurs séquences de tokens de sortie peuvent changer de manière radicale, augmentant ainsi la charge d’apprentissage pour les modèles linguistiques ultérieurs (LLM). Cette instabilité provient de deux défauts : une architecture de quantification à chemin unique fragile, et un signal d’entraînement éloigné qui ignore la stabilité des tokens intermédiaires. Pour remédier à cela, nous introduisons StableToken, un tokeniseur qui atteint une stabilité grâce à un mécanisme fondé sur le consensus. Son architecture à plusieurs branches traite l’audio en parallèle, et ces représentations sont fusionnées via un puissant mécanisme de vote bit à bit afin de former une unique séquence de tokens stable. StableToken établit un nouveau record d’état de l’art en matière de stabilité des tokens, réduisant de manière significative la distance d’édition unitaire (UED) sous diverses conditions de bruit. Cette stabilité fondamentale se traduit directement par des avantages en aval, améliorant considérablement la robustesse des SpeechLLM sur une variété de tâches.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.