يمكن نماذج اللغة الكبيرة أن تُحسّن نفسها ذاتيًا

لقد حققت نماذج اللغة الكبيرة (LLMs) أداءً ممتازًا في مهام متنوعة. ومع ذلك، يتطلب تحسين النموذج الدقيق (fine-tuning) تدريبًا واسع النطاقًا تحت إشراف. أما البشر، فيمكنهم تحسين قدراتهم الاستنتاجية من خلال التفكير الذاتي دون الحاجة إلى مدخلات خارجية. في هذه الدراسة، نُظهر أن نموذج اللغة الكبير قادر أيضًا على التحسين الذاتي باستخدام فقط مجموعات بيانات غير مُعلَّمة. نستخدم نموذجًا مُدرَّبًا مسبقًا لإنشاء إجابات مُزوَّدة بأساليب تفكير "ذات ثقة عالية" لأسئلة غير مُعلَّمة، باستخدام تقنية التفكير المتسلسل (Chain-of-Thought prompting) والاتساق الذاتي (self-consistency)، ثم نُحسِّن النموذج الدقيق باستخدام هذه الحلول التي تم إنشاؤها ذاتيًا كمخرجات مستهدفة. ونُظهر أن نهجنا يُحسِّن القدرة الاستنتاجية العامة لنموذج لغة كبير بحجم 540 مليار معامل (من 74.4% إلى 82.1% على GSM8K، ومن 78.2% إلى 83.0% على DROP، ومن 90.0% إلى 94.4% على OpenBookQA، ومن 63.4% إلى 67.9% على ANLI-A3)، ويحقق أداءً من المستوى الرائد عالميًا، دون الحاجة إلى أي بيانات حقيقية (ground truth labels). ونُجري دراسات تحليلية (ablation studies) ونُظهر أن التحسين الدقيق في القدرة الاستنتاجية يُعد أمرًا حاسمًا لتحقيق التحسين الذاتي.