HyperAI

Minbpe-Repository

Datum

vor einem Jahr

Größe

312.27 KB

Veröffentlichungs-URL

github.com

Dieses Repository ist das Minbpe-Projekt-Repository von Karpathy.

In diesem Repository gibt es zwei Tokenizer, die beide die drei Hauptfunktionen eines Tokenizers ausführen können:

  • Trainieren Sie das Tokenizer-Vokabular und fügen Sie es mit dem gegebenen Text zusammen
  • Von der Textkodierung zu Tokens
  • Dekodierung von Tokens zu Text

Die ursprüngliche Absicht des minbpe-Projekts besteht darin, den prägnantesten, klarsten und lehrreichsten Code für den in LLM weit verbreiteten BPE-Algorithmus zu erstellen. Durch die Bereitstellung von zwei Tokenizern implementiert das minbpe-Projekt Kernfunktionen wie Training, Kodierung und Dekodierung von Tokenizern. Ein solches Design verbessert nicht nur die Lesbarkeit des Codes, sondern bietet Benutzern auch eine bequemere und effizientere Bedienung.

Insbesondere enthält das minbpe-Projekt-Repository klassenbasierte Tokenizer-Implementierungen wie BaseTokenizer und BasicTokenizer. Diese Klassen sind darauf ausgelegt, grundlegende Funktionen für Training, Kodierung und Dekodierung sowie Hilfsfunktionen wie Speichern und Laden bereitzustellen. Darüber hinaus erweitert die Implementierung von RegexTokenizer und GPT4Tokenizer die Funktionalität des Projekts und bietet Benutzern mehr Auswahlmöglichkeiten und Möglichkeiten.

minbpe-master.torrent
Seeding 1Herunterladen 1Abgeschlossen 67Gesamtdownloads 47
  • minbpe-master/
    • README.md
      1.65 KB
    • README.txt
      3.3 KB
      • data/
        • minbpe-master.zip
          312.27 KB