HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 2 mois

Tokens de glitch dans les grands modèles linguistiques : taxonomie de catégorisation et détection efficace

Yuxi Li Yi Liu Gelei Deng Ying Zhang Wenjia Song et al

Tokens de glitch dans les grands modèles linguistiques : taxonomie de catégorisation et détection efficace

Résumé

À mesure que les grands modèles linguistiques (LLM) sont de plus en plus appliqués dans divers domaines, il devient essentiel d’étudier de manière exhaustive leurs comportements imprévus et leurs conséquences potentielles. Dans cette étude, nous introduisons et explorons systématiquement le phénomène des « tokens de glitch », c’est-à-dire des tokens anormaux générés par des tokenizers établis, pouvant potentiellement compromettre la qualité des réponses produites par les modèles. Plus précisément, nous menons des expérimentations sur sept des modèles LLM les plus populaires, en utilisant trois tokenizers distincts et en traitant un total de 182 517 tokens. Nous proposons une classification des tokens de glitch identifiés, ainsi qu’une description des symptômes observés chez les LLM lorsqu’ils interagissent avec ces tokens. À la lumière de notre observation selon laquelle les tokens de glitch tendent à se regrouper dans l’espace d’embedding, nous proposons GlitchHunter, une nouvelle méthode itérative fondée sur le regroupement (clustering), destinée à détecter efficacement ces tokens anormaux. Les évaluations montrent que notre approche surpasse notablement trois méthodes de référence sur huit modèles LLM open source. À notre connaissance, il s’agit de la première étude exhaustive consacrée aux tokens de glitch. Notre nouvelle méthode de détection apporte également des perspectives précieuses pour atténuer les erreurs liées à la tokenisation dans les grands modèles linguistiques.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Tokens de glitch dans les grands modèles linguistiques : taxonomie de catégorisation et détection efficace | Articles de recherche | HyperAI