HyperAIHyperAI

Command Palette

Search for a command to run...

R-Zero: نموذج لغوي ذكي للتفكير التطوري من بيانات صفرية

Chengsong Huang Wenhao Yu Xiaoyang Wang Hongming Zhang Zongxia Li Ruosen Li Jiaxin Huang Haitao Mi Dong Yu

الملخص

تُقدّم النماذج اللغوية الكبيرة ذات التطوّر الذاتي (LLMs) طريقًا قابلاً للتوسع نحو الذكاء الفائق من خلال توليد تجاربها الخاصة وتحسينها وتعلّمها منها بشكل مستقل. ومع ذلك، لا تزال الطرق الحالية لتدريب هذه النماذج تعتمد بشكل كبير على مهام وعلامات مُعدّة يدويًا من قِبل البشر، وغالبًا ما تُستخدم عبر التخصيص الدقيق (fine-tuning) أو التعلّم بالتعزيز (reinforcement learning)، مما يشكّل عائقًا جوهريًا في سبيل تطوير أنظمة الذكاء الاصطناعي لتجاوز القدرات البشرية. وللتغلب على هذا التحدي، نقدّم إطار R-Zero، وهو إطار كامل التلقائية يُولّد بيانات التدريب الخاصة به من الصفر. يبدأ R-Zero من نموذج أساسي واحد (LLM)، ثم يُنشئ نموذجين مستقلين يتمتعان بدورين مختلفين: نموذج "المُتحدّي" (Challenger) ونموذج "المُحلّل" (Solver). ويتم تحسين هذين النموذجين بشكل منفصل، مع تطوّر تآزري من خلال التفاعل: حيث يُكافأ المُتحدّي على اقتراح مهام تقع قرب الحدود الحدية لقدرات المُحلّل، بينما يُكافأ المُحلّل على حلّ مهام متزايدة الصعوبة تطرحها المُتحدّية. يؤدي هذا الإجراء إلى توليد منهجية تعلّم مُركّزة ومتقدّمة ذاتيًا، دون الحاجة إلى أي مهام أو علامات مُسبقة. من الناحية التجريبية، يُحسّن R-Zero بشكل كبير من قدرة التفكير المنطقي في مختلف النماذج الأساسية (backbone LLMs)، مثلاً، يُحسّن أداء نموذج Qwen3-4B-Base بنسبة +6.49 في اختبارات التفكير الرياضي، وبنسبة +7.54 في اختبارات التفكير في المجالات العامة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp