HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 2 أيام

DisCO: تعزيز النماذج الكبيرة للاستدلال من خلال التحسين المقيّد التمييزي

Gang Li Ming Lin Tomer Galanti Zhengzhong Tu Tianbao Yang

DisCO: تعزيز النماذج الكبيرة للاستدلال من خلال التحسين المقيّد التمييزي

الملخص

لقد أثار النجاح الأخير والانفتاح المُبهر لنموذج DeepSeek-R1 اهتمامًا واسع النطاق بأسلوب التحسين النسبي المُجموعي (GRPO) كطريقة لتعلم التقويم المُتَعَلِّم في نماذج التفكير الكبيرة (LRMs). في هذا العمل، نُحلِّل دالة الهدف الخاصة بـ GRPO ضمن بيئة مكافأة ثنائية، ونكشف عن حدّ ذاتي في انحياز صعوبة السؤال. كما نُحدد علاقة بين GRPO والأساليب التقليدية التمييزية المستخدمة في التعلم المراقب. مستوحين من هذه الرؤى، نقدّم إطارًا جديدًا يُدعى التحسين المُحدود التمييزي (DisCO) لتعزيز نماذج التفكير الكبيرة، مستندًا إلى مبدأ التعلم التمييزي. تكمن الفروقات الرئيسية بين DisCO وGRPO ونسخها الحديثة في النقاط التالية: (1) استبدال دالة الهدف النسبية المجموعة بدلالة تمييزية معرفة بواسطة دالة تقييم؛ (2) التخلي عن الوظائف الاستبدالية القائمة على التقطيع (clipping) في صالح دوال تقييم تُستخدم كوظائف استبدالية لتعلم التقويم دون تقطيع؛ (3) استخدام نهج بسيط لكنه فعّال في التحسين المُحدود لفرض قيد انحراف كولبوج-ليبلر (KL divergence). نتيجة لذلك، يقدّم DisCO مزايا ملحوظة مقارنة بـ GRPO ونسخها: (أ) يُزيل بالكامل انحياز الصعوبة من خلال اعتماد دوال تقييم تمييزية؛ (ب) يعالج مشكلة عدم الاستقرار في الإنتروبيا التي تُعاني منها GRPO ونسخها من خلال استخدام دوال تقييم دون تقطيع ونهج تحسين مُحدود، مما يُنتج ديناميكيات تدريب طويلة ومستقرة؛ (ج) يسمح بدمج تقنيات متقدمة في التعلم التمييزي لمعالجة عدم التوازن في البيانات، حيث يحتوي عدد كبير من الأسئلة على إجابات مولّدة سلبية أكثر من الإجابات الإيجابية أثناء التدريب. أظهرت تجاربنا في تحسين قدرات النماذج المُعدّلة بـ SFT على التفكير الرياضي أن DisCO يتفوّق بشكل ملحوظ على GRPO ونسخها المُحسّنة مثل DAPO، محقّقًا مكاسب متوسطة تصل إلى 7% مقارنة بـ GRPO و6% مقارنة بـ DAPO على ستة مهام معيارية، بالنسبة لنموذج بحجم 1.5 مليار معامل.

مستودعات الكود

optimization-ai/disco
رسمي
pytorch
مذكور في GitHub

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
DisCO: تعزيز النماذج الكبيرة للاستدلال من خلال التحسين المقيّد التمييزي | الأوراق البحثية | HyperAI