Command Palette
Search for a command to run...
StableToken: Ein geräuschrobuster semantischer Sprachtokenisierer für resiliente Sprach-LLMs
Yuhan Song Linhao Zhang Chuhan Wu Aiwei Liu Wei Jia Houfeng Wang Xiao Zhou

Abstract
Häufig verwendete semantische Sprach-Tokenisierer, die darauf ausgelegt sind, sprachliche Inhalte zu erfassen, erweisen sich überraschenderweise als äußerst anfällig. Wir stellen fest, dass sie nicht robust gegenüber bedeutungsunabhängigen akustischen Störungen sind; selbst bei hohen Signal-Rausch-Verhältnissen (SNR), bei denen die Sprache vollständig verständlich ist, können ihre Ausgabetokenfolgen drastisch variieren, was die Lernlast für nachgeschaltete große Sprachmodelle (LLMs) erhöht. Diese Instabilität resultiert aus zwei Schwächen: einer spröden Einzelpfad-Quantisierungsarchitektur und einem vom Zwischenzustand der Tokens unabhängigen Trainingssignal. Um dieses Problem zu lösen, stellen wir StableToken vor, einen Tokenisierer, der durch einen Konsens-basierten Mechanismus Stabilität erreicht. Seine mehrfach verzweigte Architektur verarbeitet Audio parallel, und diese Darstellungen werden mittels eines leistungsfähigen bitweisen Abstimmungsmechanismus zusammengeführt, um eine eindeutige und stabile Tokenfolge zu generieren. StableToken erreicht eine neue State-of-the-Art-Leistung in Bezug auf Tokenstabilität und reduziert die Unit-Edit-Distanz (UED) unter vielfältigen Rauschbedingungen signifikant. Diese grundlegende Stabilität übersetzt sich direkt in Vorteile für nachgeschaltete Anwendungen und verbessert die Robustheit von SpeechLLMs erheblich bei einer Vielzahl von Aufgaben.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.