vor 2 Monaten

Glitch-Token in großen Sprachmodellen: Kategorisierungstaxonomie und effektive Erkennung

Yuxi Li Yi Liu Gelei Deng Ying Zhang Wenjia Song et al

Abstract

Mit der zunehmenden Anwendung von großen Sprachmodellen (Large Language Models, LLMs) in verschiedenen Bereichen wird es zunehmend notwendig, deren unerwartetes Verhalten und die daraus resultierenden Auswirkungen umfassend zu untersuchen. In dieser Studie führen wir das Phänomen der „Glitch-Tokens“ ein und untersuchen es systematisch. Glitch-Tokens sind anomale Tokens, die von etablierten Tokenisierern generiert werden und potenziell die Qualität der Antworten der Modelle beeinträchtigen können. Insbesondere führen wir Experimente an sieben der am häufigsten verwendeten LLMs durch, wobei drei verschiedene Tokenisierer eingesetzt werden und insgesamt 182.517 Tokens analysiert werden. Wir präsentieren eine Klassifizierung der identifizierten Glitch-Tokens sowie die von LLMs bei der Interaktion mit diesen Tokens beobachteten Symptome. Aufgrund unserer Beobachtung, dass Glitch-Tokens tendenziell in dem Embedding-Raum gruppiert auftreten, stellen wir GlitchHunter vor – eine neuartige, iterativ basierte Clustering-Methode zur effizienten Erkennung von Glitch-Tokens. Die Evaluation zeigt, dass unser Ansatz drei Baseline-Methoden auf acht Open-Source-LLMs deutlich übertrifft. So weit uns bekannt ist, präsentieren wir hiermit die erste umfassende Studie zu Glitch-Tokens. Unser neuer Erkennungsansatz liefert zudem wertvolle Erkenntnisse zur Minderung von durch Tokenisierung verursachten Fehlern in LLMs.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding

Sofort einsatzbereit GPUs

Beste Preise

Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Glitch-Token in großen Sprachmodellen: Kategorisierungstaxonomie und effektive Erkennung

Yuxi Li Yi Liu Gelei Deng Ying Zhang Wenjia Song et al

Abstract

KI mit KI entwickeln

Hyper Newsletters