R-Zero: نموذج لغوي ذكي للتفكير التطوري من بيانات صفرية

تُقدّم النماذج اللغوية الكبيرة ذات التطوّر الذاتي (LLMs) طريقًا قابلاً للتوسع نحو الذكاء الفائق من خلال توليد تجاربها الخاصة وتحسينها وتعلّمها منها بشكل مستقل. ومع ذلك، لا تزال الطرق الحالية لتدريب هذه النماذج تعتمد بشكل كبير على مهام وعلامات مُعدّة يدويًا من قِبل البشر، وغالبًا ما تُستخدم عبر التخصيص الدقيق (fine-tuning) أو التعلّم بالتعزيز (reinforcement learning)، مما يشكّل عائقًا جوهريًا في سبيل تطوير أنظمة الذكاء الاصطناعي لتجاوز القدرات البشرية. وللتغلب على هذا التحدي، نقدّم إطار R-Zero، وهو إطار كامل التلقائية يُولّد بيانات التدريب الخاصة به من الصفر. يبدأ R-Zero من نموذج أساسي واحد (LLM)، ثم يُنشئ نموذجين مستقلين يتمتعان بدورين مختلفين: نموذج "المُتحدّي" (Challenger) ونموذج "المُحلّل" (Solver). ويتم تحسين هذين النموذجين بشكل منفصل، مع تطوّر تآزري من خلال التفاعل: حيث يُكافأ المُتحدّي على اقتراح مهام تقع قرب الحدود الحدية لقدرات المُحلّل، بينما يُكافأ المُحلّل على حلّ مهام متزايدة الصعوبة تطرحها المُتحدّية. يؤدي هذا الإجراء إلى توليد منهجية تعلّم مُركّزة ومتقدّمة ذاتيًا، دون الحاجة إلى أي مهام أو علامات مُسبقة. من الناحية التجريبية، يُحسّن R-Zero بشكل كبير من قدرة التفكير المنطقي في مختلف النماذج الأساسية (backbone LLMs)، مثلاً، يُحسّن أداء نموذج Qwen3-4B-Base بنسبة +6.49 في اختبارات التفكير الرياضي، وبنسبة +7.54 في اختبارات التفكير في المجالات العامة.