بيثيا: مجموعة أدوات لتحليل نماذج اللغة الكبيرة عبر التدريب والتوسع

كيف تتطور النماذج اللغوية الكبيرة (LLMs) وتتغير خلال عملية التدريب؟ وكيف تتغير هذه الأنماط مع زيادة حجم النماذج؟ للاجابة على هذه الأسئلة، نقدم \textit{Pythia}، وهي مجموعة من 16 نموذجًا لغويًا كبيرًا تم تدريبها جميعًا على بيانات عامة تم عرضها بنفس الترتيب بالضبط، وتتراوح أحجامها بين 70 مليون و12 مليار معلمة. نوفر وصولًا عامًا إلى 154 نقطة تحقق (checkpoints) لكل نموذج من النماذج الـ16، بالإضافة إلى أدوات لتنزيل وإعادة بناء حاويات التدريب (dataloaders) بدقة لتمكين الدراسات الإضافية. نهدف من \textit{Pythia} إلى دعم الأبحاث في مجالات متعددة، ونقدم عدة دراسات حالة تشمل نتائج جديدة في مجالات الذاكرة، وتأثير تكرار المصطلحات على الأداء في التعلم القليل (few-shot)، وتقليل التحيز الجنسي. ونُظهر أن هذا الإعداد المُتحكم به بشكل دقيق يمكن استخدامه للحصول على رؤى جديدة حول النماذج اللغوية الكبيرة وديناميكيات تدريبها. يمكن العثور على النماذج المدربة، وشفرات التحليل، وشفرات التدريب، والبيانات المستخدمة في التدريب على الرابط \url{https://github.com/EleutherAI/pythia}.