HyperAI
منذ 6 أيام

خطوة تلميح: التلميحات التدريجية متعددة المستويات تعزز التعلم بالتعزيز للمنطق

Kaiyi Zhang, Ang Lv, Jinpeng Li, Yongbo Wang, Feng Wang, Haoyuan Hu, Rui Yan
خطوة تلميح: التلميحات التدريجية متعددة المستويات تعزز التعلم بالتعزيز للمنطق
الملخص

التعلم بالتعزيز مع المكافآت القابلة للتحقق (RLVR) هو نهج واعد لتحسين قدرات التفكير المعقدة لأنماط اللغات الكبيرة (LLMs). ومع ذلك، تواجه الطرق الحالية في RLVR تحديين رئيسيين: مشكلة المكافأة القريبة من الخطأ، حيث يمكن أن يبطل خطأ صغير عملية التفكير الصحيحة بشكل عام، مما يعيق كفاءة التدريب بشكل كبير؛ واستagnation الاستكشاف، حيث تميل النماذج إلى التركيز على الحلول ضمن نطاق "منطقة الراحة" لديها، مما يفتقر إلى الدافع لاكتشاف بدائل محتملة وأكثر فعالية. لمعالجة هذه التحديات، نقترح StepHint، وهو خوارزمية RLVR جديدة تستفيد من تلميحات متعددة المستويات خطوة بخطوة لمساعدة النماذج على استكشاف مساحة الحلول بشكل أكثر فعالية. يقوم StepHint بإنشاء سلاسل تفكير صالحة من نماذج أقوى ويقسم هذه السلاسل إلى خطوات تفكير باستخدام طريقة التقسيم التكيفية المقترحة لدينا. يتم استخدام الخطوات الأولى كتلميحات، وفي الوقت نفسه، يتم تقديم تلميحات متعددة المستويات (كل منها يتكون من عدد مختلف من الخطوات) للنموذج. هذا النهج يوجه استكشاف النموذج نحو مساحة جزء حل واعد بينما يحافظ على مرونته للاستكشاف المستقل. عن طريق توفير التلميحات، يخفف StepHint من مشكلة المكافأة القريبة من الخطأ، مما يحسن كفاءة التدريب. بالإضافة إلى ذلك، المسارات المنطقية الخارجية تساعد النموذج على تطوير قدرات تفكير أفضل، مما يمكنه من الخروج من "منطقة الراحة" وتخفيف استagnation الاستكشاف. أثبت StepHint أنه أفضل من طرق تعزيز RLVR التنافسية عبر ست مقاييس رياضية، كما أظهر تعميمًا أفضل وتقدمًا ملحوظًا فوق النقاط الأساسية في مقاييس خارج المجال. 注释:在“استagnation الاستكشاف”中,“است”是阿拉伯语前缀,表示“探索”,而“agnation”则保留了英文原词以确保信息完整。然而,为了使译文更加流畅和自然,可以将其翻译为“ركود الاستكشاف”。因此,最终版本如下: التعلم بالتعزيز مع المكافآت القابلة للتحقق (RLVR) هو نهج واعد لتحسين قدرات التفكير المعقدة لأنماط اللغات الكبيرة (LLMs). ومع ذلك، تواجه الطرق الحالية في RLVR تحديين رئيسيين: مشكلة المكافأة القريبة من الخطأ، حيث يمكن أن يبطل خطأ صغير عملية التفكير الصحيحة بشكل عام، مما يعيق كفاءة التدريب بشكل كبير؛ وركود الاستكشاف، حيث تميل النماذج إلى التركيز على الحلول ضمن نطاق "منطقة الراحة" لديها، مما يفتقر إلى الدافع لاكتشاف بدائل محتملة وأكثر فعالية. لمعالجة هذه التحديات، نقترح StepHint، وهو خوارزمية RLVR جديدة تستفيد من تلميحات متعددة المستويات خطوة بخطوة لمساعدة النماذج على استكشاف مساحة الحلول بشكل أكثر فعالية. يقوم StepHint بإنشاء سلاسل تفكير صالحة من نماذج أقوى ويقسم هذه السلاسل إلى خطوات تفكير باستخدام طريقة التقسيم التكيفية المقترحة لدينا. يتم استخدام الخطوات الأولى كتلميحات، وفي الوقت نفسه، يتم تقديم تلميحات متعددة المستويات (كل منها يتكون من عدد مختلف من الخطوات) للنموذج. هذا النهج يوجه استكشاف النموذج نحو مساحة جزء حل واعد بينما يحافظ على مرونته للاستكشاف المستقل. عن طريق توفير التلميحات,يقوم StepHint بتخفيف مشكلة المكافأة القريبة من الخطأ ،مما يؤدي إلى تحسين كفاءة التدريب. بالإضافة إلى ذلك ،تساعد المسارات المنطقية الخارجية النموذج على تنمية قدراته في التفكير ،ممكنًا له الخروج من "منطقة الراحة" وتخفيف ركود الاستكشاف. أثبت StepHint أنه أفضل الأداء مقارنة بطرق تعزيز RLVR التنافسية عبر ست مقاييس رياضية ،مع إظهاره لتعميم أفضل وتقدم أكبر فوق النقاط الأساسية في مقاييس خارج المجال. 希望这个翻译能符合您的要求。如果有任何进一步的修改或调整,请随时告知。