Dépôt Minbpe
Date
Taille
URL de publication
Tags
Catégories
Ce référentiel est le référentiel du projet minbpe de Karpathy.
Il y a deux Tokenizers dans ce référentiel, tous deux pouvant exécuter les 3 fonctions principales d'un Tokenizer :
- Entraînez le vocabulaire du tokenizer et fusionnez-le avec le texte donné
- De l'encodage de texte aux jetons
- Décodage des jetons en texte
L'intention initiale du projet minbpe est de créer le code le plus concis, le plus clair et le plus éducatif pour l'algorithme BPE largement utilisé dans LLM. En fournissant deux tokenizers, le projet minbpe implémente des fonctions de base telles que la formation, l'encodage et le décodage des tokenizers. Une telle conception améliore non seulement la lisibilité du code, mais offre également aux utilisateurs une expérience d'utilisation plus pratique et plus efficace.
Plus précisément, le référentiel du projet minbpe contient des implémentations de Tokenizer basées sur des classes telles que BaseTokenizer et BasicTokenizer. Ces classes sont conçues pour fournir des fonctionnalités de base pour la formation, l'encodage et le décodage, ainsi que des fonctions utilitaires telles que la sauvegarde et le chargement. De plus, la mise en œuvre de RegexTokenizer et GPT4Tokenizer étend encore les fonctionnalités du projet et offre aux utilisateurs plus de choix et de possibilités.