Command Palette
Search for a command to run...
Glitch-Token in großen Sprachmodellen: Kategorisierungstaxonomie und effektive Erkennung
Yuxi Li Yi Liu Gelei Deng Ying Zhang Wenjia Song et al

Abstract
Mit der zunehmenden Anwendung von großen Sprachmodellen (Large Language Models, LLMs) in verschiedenen Bereichen wird es zunehmend notwendig, deren unerwartetes Verhalten und die daraus resultierenden Auswirkungen umfassend zu untersuchen. In dieser Studie führen wir das Phänomen der „Glitch-Tokens“ ein und untersuchen es systematisch. Glitch-Tokens sind anomale Tokens, die von etablierten Tokenisierern generiert werden und potenziell die Qualität der Antworten der Modelle beeinträchtigen können. Insbesondere führen wir Experimente an sieben der am häufigsten verwendeten LLMs durch, wobei drei verschiedene Tokenisierer eingesetzt werden und insgesamt 182.517 Tokens analysiert werden. Wir präsentieren eine Klassifizierung der identifizierten Glitch-Tokens sowie die von LLMs bei der Interaktion mit diesen Tokens beobachteten Symptome. Aufgrund unserer Beobachtung, dass Glitch-Tokens tendenziell in dem Embedding-Raum gruppiert auftreten, stellen wir GlitchHunter vor – eine neuartige, iterativ basierte Clustering-Methode zur effizienten Erkennung von Glitch-Tokens. Die Evaluation zeigt, dass unser Ansatz drei Baseline-Methoden auf acht Open-Source-LLMs deutlich übertrifft. So weit uns bekannt ist, präsentieren wir hiermit die erste umfassende Studie zu Glitch-Tokens. Unser neuer Erkennungsansatz liefert zudem wertvolle Erkenntnisse zur Minderung von durch Tokenisierung verursachten Fehlern in LLMs.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.