DisCO: تعزيز النماذج الكبيرة للاستدلال من خلال التحسين المقيّد التمييزي
Gang Li Ming Lin Tomer Galanti Zhengzhong Tu Tianbao Yang

الملخص
لقد أثار النجاح الأخير والانفتاح المُبهر لنموذج DeepSeek-R1 اهتمامًا واسع النطاق بأسلوب التحسين النسبي المُجموعي (GRPO) كطريقة لتعلم التقويم المُتَعَلِّم في نماذج التفكير الكبيرة (LRMs). في هذا العمل، نُحلِّل دالة الهدف الخاصة بـ GRPO ضمن بيئة مكافأة ثنائية، ونكشف عن حدّ ذاتي في انحياز صعوبة السؤال. كما نُحدد علاقة بين GRPO والأساليب التقليدية التمييزية المستخدمة في التعلم المراقب. مستوحين من هذه الرؤى، نقدّم إطارًا جديدًا يُدعى التحسين المُحدود التمييزي (DisCO) لتعزيز نماذج التفكير الكبيرة، مستندًا إلى مبدأ التعلم التمييزي. تكمن الفروقات الرئيسية بين DisCO وGRPO ونسخها الحديثة في النقاط التالية: (1) استبدال دالة الهدف النسبية المجموعة بدلالة تمييزية معرفة بواسطة دالة تقييم؛ (2) التخلي عن الوظائف الاستبدالية القائمة على التقطيع (clipping) في صالح دوال تقييم تُستخدم كوظائف استبدالية لتعلم التقويم دون تقطيع؛ (3) استخدام نهج بسيط لكنه فعّال في التحسين المُحدود لفرض قيد انحراف كولبوج-ليبلر (KL divergence). نتيجة لذلك، يقدّم DisCO مزايا ملحوظة مقارنة بـ GRPO ونسخها: (أ) يُزيل بالكامل انحياز الصعوبة من خلال اعتماد دوال تقييم تمييزية؛ (ب) يعالج مشكلة عدم الاستقرار في الإنتروبيا التي تُعاني منها GRPO ونسخها من خلال استخدام دوال تقييم دون تقطيع ونهج تحسين مُحدود، مما يُنتج ديناميكيات تدريب طويلة ومستقرة؛ (ج) يسمح بدمج تقنيات متقدمة في التعلم التمييزي لمعالجة عدم التوازن في البيانات، حيث يحتوي عدد كبير من الأسئلة على إجابات مولّدة سلبية أكثر من الإجابات الإيجابية أثناء التدريب. أظهرت تجاربنا في تحسين قدرات النماذج المُعدّلة بـ SFT على التفكير الرياضي أن DisCO يتفوّق بشكل ملحوظ على GRPO ونسخها المُحسّنة مثل DAPO، محقّقًا مكاسب متوسطة تصل إلى 7% مقارنة بـ GRPO و6% مقارنة بـ DAPO على ستة مهام معيارية، بالنسبة لنموذج بحجم 1.5 مليار معامل.
مستودعات الكود
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.