HyperAIHyperAI

Command Palette

Search for a command to run...

Guide des Techniques de Samplage Moderne pour les Modèles de Langue Large (LLMs)

Guide simplifié aux échantillonneurs actuels des grands modèles linguistiques (LLMs) Présentation générale Les grands modèles linguistiques (LLMs) fonctionnent en analysant un morceau de texte (par exemple, une demande d'utilisateur) et en calculant le mot suivant, plus précisément, les tokens (sous-mots). Un LLM dispose d'un vocabulaire de tokens valides et se réfère à ces tokens lors de l'entraînement et de la génération de texte (inférence). Glossaire des termes techniques Logits : Les scores bruts et non normalisés produit par le modèle pour chaque token de son vocabulaire. Plus les logits sont élevés, plus le modèle considère le token comme probable. Softmax : Une fonction mathématique qui convertit les logits en une distribution de probabilité. Entropie : Mesure d'incertitude ou d'aléatoire dans une distribution de probabilité. Plus l'entropie est élevée, moins le modèle est certain du token qui doit suivre. Perplexité : Mesure de surprise du modèle face au texte. Plus la perplexité est basse, plus le modèle est confiant. n-gram : Une séquence de n tokens contigus. Fenêtre contextuelle : Le nombre maximal de tokens qu'un LLM peut traiter en une fois, incluant le prompt et le texte généré. Distribution de probabilité : Fonction attribuant des probabilités à tous les tokens possibles, de sorte qu'ils somment à 1. Pourquoi les tokens ? Pas les lettres : Les LLMs ont une fenêtre contextuelle limitée. Si on utilisait des lettres, même un texte modéré serait transformé en une séquence excessive de tokens, augmentant considérablement les calculs required. Pas les mots entiers : Créer un vocabulaire couvrant toutes les possibles mots en anglais (et d'autres langues) rendrait la matrice d'embedding démesurément grande et coûteuse. De plus, les nouveaux ou rares mots seraient remplacés par un token "inconnu", perdant ainsi presque toute information sémantique. Comment les LLMs génèrent-ils du texte ? La génération de texte implique deux étapes clés : 1. Prédiction : Le modèle calcule la distribution de probabilité pour chaque token possible. 2. Sélection : Le modèle choisit un token selon cette distribution. L'échantillonnage introduit un aléa contrôlé pour diversifier les sorties. Méthodes d'échantillonnage Température Description : Agit comme une "soupape de créativité". Une température basse (près de 0) fait du modèle un generateur très prévisible. Une température haute (0.7-1.0) augmente la créativité et la diversité, mais aussi les erreurs. Une température très élevée (au-delà de 1.0) peut rendre le modèle imprévisible. Technique : Modifie directement la distribution de probabilité en divisant les logits par la température. Cette opération accentue les écarts de probabilité entre tokens selon la valeur de la température. Pénalité de présence Description : Discourage les tokens déjà utilisés, sans tenir compte de leur fréquence. Technique : Soustrait une pénalité fixe aux logits des tokens précédemment utilisés. Pénalité de fréquence Description : Discourage les tokens en fonction de leur fréquence d'utilisation. Plus un token est répété, moins il est susceptible d'être sélectionné à nouveau. Technique : Réduit les logits des tokens répétés en fonction de leur fréquence. Pénalité de répétition Description : Applique une pénalité aux tokens du prompt et du texte généré, traitant différemment les logits positifs et négatifs. Technique : Crée un masque combinant prompt et output, puis applique la pénalité de manière asymétrique. DRY (Don't Repeat Yourself) Description : Détecte les répétitions de motifs (n-grams) pour éviter les boucles et la redondance, maintenant une écriture variée et naturelle. Technique : Applique une pénalité exponentielle en fonction de la longueur du motif répété, respectant les marqueurs de séquences ( ponctuation) qui réinitialisent le suivi de motifs. Top-K Description : Le modèle ne considère que les K tokens les plus probables, éliminant ainsi les options peu probables. Technique : Classe les logits en ordre croissant et conserve les K plus élevés, les autres étant éliminés. Top-P Description : Sélectionne le plus petit ensemble de tokens dont la probabilité combinée dépasse le seuil P, adaptant le nombre de tokens considérés à la confiance du modèle. Technique : Calcule la distribution de probabilité cumulée et masque les tokens dont la probabilité cumulée est inférieure à 1-P. Min-P Description : Établit un seuil de qualité relatif au meilleur token, permettant une diversité adaptative. Technique : Masque les tokens dont la probabilité est inférieure à un certain pourcentage de la probabilité maximale. Top-A Description : Applique un seuil plus strict lorsque le modèle est plus confiant. Technique : Calcule un seuil proportionnel au carré de la probabilité maximale. XTC (eXclude Top Choices) Description : Occasionnellement exclut les choix les plus probables, favorisant la sélectivité de l'échantillonnage. Technique : Active l'exclusion des tokens probables sur la base d'une pénalité spécifique. Échantillonnage sans queue (Tail-Free Sampling, TFS) Description : Élimine la "queue" de la distribution, c'est-à-dire les tokens avec une probabilité largement inférieure. Technique : Identifie les points de basculement où la distribution commence à s'aplanir et masque les tokens en aval. Coupure par Eta (Eta Cutoff) Description : Adapte le seuil de sélection en fonction de la certitude du modèle. Technique : Calcule un seuil dynamique en tenant compte de l'entropie de la distribution. Coupure par Epsilon (Epsilon Cutoff) Description : Élimine les options dont la probabilité est en dessous d'un seuil fixe. Technique : Convertit les logits en probabilités et masque les tokens en dessous du seuil epsilon. Échantillonnage typique Description : Fait le choix basé sur la "typicité" des tokens, c'est-à-dire leur surprise moyenne dans le contexte. Technique : Balance la probabilité et le degré de dégénérescence du token pour maintenir une output naturelle et équilibrée. Échantillonnage quadratique Description : Utilise des transformations mathématiques pour ajuster la distribution de probabilité. Technique : Applique une transformation quadratique et cubique aux logits, ajustant ainsi le gap entre les tokens hauts et bas. Mirostat Description : Ajuste automatiquement la créativité pour maintenir une perplexité constante. Technique : Utilise un contrôle de retour négatif pour s'adapter à la perplexité du contexte, favorisant soit la créativité, soit la cohérence selon les besoins. Échantillonnage par température dynamique Description : Ajuste la température en fonction de l'entropie de la distribution pour balancer la diversité et la cohérence. Technique : Calcule la température basée sur l'entropie normalisée, appliquant une transformation non-linéaire pour ajuster les logits. Recherche par faisceau (Beam Search) Description : Maintient plusieurs séquences de texto en parallèle, gardant à chaque étape les k meilleures. Technique : Évalue continuellement les k séquences les plus probables, sélectionnant celles qui présentent le meilleur score cumulatif. Utilisation : Rare, car coûteux et moins efficace que les méthodes d'échantillonnage récentes. Recherche contrastive (Contrastive Search) Description : Équilibre la probabilité des tokens et leur dissimilarité avec le contexte pour éviter la redondance. Technique : Calcule un score qui combine la probabilité et une pénalité de dégénérescence basée sur la similitude cosinus des vecteurs cachés. Ordre de l'échantillonnage Dans les systèmes de LLM, les techniques d'échantillonnage sont souvent appliquées dans un certain ordre pour optimiser la sortie : 1. Génération de logits bruts 2. Filtrage/Bannissement de tokens : Élimine les tokens inadmissibles. 3. Application des pénalités : Répétition, fréquence, et présence. 4. Techniques basées sur les motifs : DRY pour éviter les répétitions. 5. Adjustement de la température : Appliqué généralement en premier pour les tâches créatives, en dernier pour les tâches techniques. 6. Reshape de la distribution : Top-K, Top-P, Min-P, etc. 7. Échantillonnage final : Sélection du token selon la distribution finale. Effets et interactions des échantillonneurs L'ordre dans lequel les échantillonneurs sont appliqués affecte considérablement la génération du texte. Par exemple : - Température avant le filtrage : Permet à certains tokens initialement en dehors du Top-K de devenir probables après l'application de la température. - Pénalités avant le filtrage : Flatte la distribution pour élever les tokens non utilisés. - DRY tôt dans la pipeline : Détecte et pénalise les motifs répétitifs avant les autres transformations. - Synergies : - Top-K + Top-P : Offre une limite fixe et une flexibilité adaptative. - Température + Min-P : Augmente la créativité tout en filtrant les mauvaises options. - Conflits : - Haute température + Bas Top-K : L'effet de la température est annulé par le Top-K. - Multiples méthodes de filtrage : Redondance des restrictions. - XTC + Top-A : Restriction excessive du space d'échantillonnage. Évaluation professionnelle et profil de l'entreprise Les échantillonneurs jouent un rôle crucial dans la diversité et la qualité du texte généré par les LLMs. L'ajustement fin des paramètres, en particulier l'ordre et la combinaison des échantillonneurs, peut grandement améliorer l'output. Des entreprises comme OpenAI et Google continuent d'innover dans ce domaine, proposant des outils toujours plus sophistiqués pour une génération de texte naturelle et cohérente. OpenAI, par exemple, utilise une combinaison dynamique des échantillonneurs en fonction des applications spécifiques, telles que la génération de chatbots ou de textes créatifs. Cette flexibilité leur permet de répondre à une gamme de demandes utilisateur et de produire des résultats de haute qualité. En conclusion, les échantillonneurs modernes des LLMs offrent un panel de techniques diversifiées pour contrôler et optimiser la génération de texte, permettant aux développeurs de créer des applications de langage naturel de plus en plus avancées et efficaces.

Liens associés