مستودع Minbpe
هذا المستودع هو مستودع مشروع minbpe الخاص بـ Karpathy.
يوجد اثنان من Tokenizers في هذا المستودع، وكلاهما قادر على تنفيذ الوظائف الرئيسية الثلاث لـ Tokenizer:
- تدريب مفردات الرمز المميز ودمجها مع النص المعطى
- من ترميز النص إلى الرموز
- فك التشفير من الرموز إلى النص
الهدف الأصلي لمشروع minbpe هو إنشاء الكود الأكثر إيجازًا ووضوحًا وتعليميًا لخوارزمية BPE المستخدمة على نطاق واسع في LLM. من خلال توفير اثنين من الرموز المميزة، ينفذ مشروع minbpe وظائف أساسية مثل التدريب والترميز وفك تشفير الرموز المميزة. لا يعمل هذا التصميم على تحسين قابلية قراءة الكود فحسب، بل يوفر للمستخدمين أيضًا تجربة تشغيل أكثر ملاءمة وكفاءة.
على وجه التحديد، يحتوي مستودع مشروع minbpe على تنفيذات Tokenizer المستندة إلى الفئة مثل BaseTokenizer و BasicTokenizer. تم تصميم هذه الفئات لتوفير الوظائف الأساسية للتدريب والترميز وفك التشفير، بالإضافة إلى وظائف المرافق مثل الحفظ والتحميل. بالإضافة إلى ذلك، يؤدي تنفيذ RegexTokenizer وGPT4Tokenizer إلى توسيع وظائف المشروع بشكل أكبر ويوفر للمستخدمين المزيد من الخيارات والإمكانيات.