このリポジトリは、Karpathy の minbpe プロジェクト リポジトリです。
このリポジトリには 2 つの Tokenizer があり、どちらも Tokenizer の 3 つの主要な機能を実行します。
minbpe プロジェクトの本来の目的は、LLM で広く使用されている BPE アルゴリズム用の最も簡潔で明確で教育的なコードを作成することです。 minbpe プロジェクトは、2 つのトークナイザーを提供することで、トークナイザーのトレーニング、エンコード、デコードなどのコア機能を実装します。この設計により、コードの可読性が向上するだけでなく、より便利で効率的な操作エクスペリエンスがユーザーに提供されます。
具体的には、minbpe プロジェクト リポジトリには、BaseTokenizer や BasicTokenizer などのクラスベースの Tokenizer 実装が含まれています。これらのクラスは、トレーニング、エンコード、デコードのための基本機能に加え、保存やロードなどのユーティリティ機能を提供するように設計されています。さらに、RegexTokenizer と GPT4Tokenizer の実装により、プロジェクトの機能がさらに拡張され、ユーザーにより多くの選択肢と可能性が提供されます。
做种 1
下载中 0
已完成 18
总下载 22