minbpe 存储库

日期

9 个月前

大小

312.27 KB

发布地址

github.com

标签

该存储库为 Karpathy 的 minbpe 项目存储库。

该存储库中有两个 Tokenizer,它们都可以执行 Tokenizer 的 3 个主要功能:

  • 训练 tokenizer 词汇并合并给定文本
  • 从文本编码到令牌
  • 从令牌解码到文本

minbpe 项目的初衷在于为 LLM 中广泛使用的 BPE 算法打造最简洁、最清晰、最具教育性的代码。通过提供两种 Tokenizer,minbpe 项目实现了对分词器的训练、编码和解码等核心功能。这样的设计不仅提高了代码的可读性,还为用户提供了更便捷、高效的操作体验。

具体来看,minbpe 项目存储库中包含了基于类的 Tokenizer 实现,如 BaseTokenizer 和 BasicTokenizer 等。这些类的设计旨在提供训练、编码和解码的基本功能,以及保存和加载等实用功能。此外,RegexTokenizer 和 GPT4Tokenizer 等的实现进一步拓展了项目的功能,为用户提供了更多选择和可能性。

minbpe-master.torrent

做种 1

下载中 0

已完成 17

总下载 21

  • minbpe-master/
    • README.md
      1.65 KB
    • README.txt
      3.3 KB
      • data/
        • minbpe-master.zip
          312.27 KB