Minbpe 저장소
이 저장소는 Karpathy의 minbpe 프로젝트 저장소입니다.
이 저장소에는 두 개의 토크나이저가 있으며, 둘 다 토크나이저의 3가지 주요 기능을 수행할 수 있습니다.
- 토크나이저 어휘를 훈련하고 주어진 텍스트와 병합합니다.
- 텍스트 인코딩에서 토큰까지
- 토큰에서 텍스트로 디코딩
minbpe 프로젝트의 원래 의도는 LLM에서 널리 사용되는 BPE 알고리즘에 대한 가장 간결하고 명확하며 교육적인 코드를 만드는 것입니다. minbpe 프로젝트는 두 개의 토크나이저를 제공함으로써 토크나이저의 훈련, 인코딩, 디코딩과 같은 핵심 기능을 구현합니다. 이러한 디자인은 코드의 가독성을 향상시킬 뿐만 아니라, 사용자에게 더욱 편리하고 효율적인 작업 환경을 제공합니다.
구체적으로, minbpe 프로젝트 저장소에는 BaseTokenizer, BasicTokenizer와 같은 클래스 기반 Tokenizer 구현이 포함되어 있습니다. 이러한 클래스는 학습, 인코딩, 디코딩을 위한 기본 기능은 물론 저장 및 로드와 같은 유틸리티 기능도 제공하도록 설계되었습니다. 또한, RegexTokenizer와 GPT4Tokenizer를 구현하면 프로젝트의 기능이 더욱 확장되고 사용자에게 더 많은 선택과 가능성이 제공됩니다.
minbpe-master.torrent
시딩 1다운로드 중 1완료됨 56총 다운로드 횟수 42