تينا: نماذج تحليلية صغيرة بكostenفاعلية عالية باستخدام تقنية LoRA
كيف يمكن تحقيق القدرات الاستدلالية القوية في نماذج اللغات بطريقة تحقق أعلى كفاءة من حيث التكلفة؟ هذا السؤال يشكل أساس البحث الذي أدى إلى تطوير Tina، وهو مشروع يركز على إنشاء نماذج استدلالية صغيرة تتميز بأقل تكلفة ممكنة. تم تصميم Tina لتوضح إمكانية تحسين الأداء الاستدلالي بشكل كبير باستخدام موارد محدودة. البحث يركز على تطبيق تقنية التكيف ذو الرتبة المنخفضة (LoRA) على نموذج أساسي صغير به 1.5 مليار معلمة فقط، وذلك خلال عملية التعلم التعزيزي (RL). هذا النهج البسيط ينتج نماذج قادرة على المنافسة مع أفضل النماذج الحالية (SOTA) التي تعتمد على نفس النموذج الأساسي، بل وأفضل منها في بعض الحالات، مع تكلفة حسابية أقل بكثير. فقد حقق أفضل نموذج من Tina تحسنًا بنسبة تزيد عن 20% في الأداء الاستدلالي على مجموعة بيانات AIME24، وبلغت دقة المرور الأولى (Pass@1) 43.33%,مع أن تكلفة التدريب والتقييم الإجمالية لم تتجاوز 9 دولارات، أي بتخفيض تقدر نسبته 260 مرة مقارنة بالتكلفة المقدرة للنماذج SOTA الحالية. الدراسة أظهرت أيضًا أن استخدام LoRA في هذا السياق يُمكن من تحقيق التكيف السريع للنموذج مع هيكل الاستدلال المكافئ من قبل RL، مع الحفاظ على معظم المعرفة الأساسية للنموذج. تم اختبار هذه النتيجة عبر عدة مجموعات بيانات استدلالية مفتوحة المصدر وعبر سلسلة من التجارب الإقصائية، بدءًا من مجموعة ثابتة واحدة من المعلمات الأولية. لتيسير البحث المفتوح وتوفير الوصول السهل، تم إتاحة جميع الكود والسجلات التدريبية وأوزان النماذج والنقاط التحققية بشكل كامل ومجانًا للمجتمع العلمي. هذا القرار يهدف إلى تشجيع المزيد من التطوير والابتكار في مجال النماذج الصغيرة ذات القدرات الاستدلالية العالية.
