HyperAI
منذ 7 أيام

هل يمكن لحقل واحد أن يساعد الآخرين؟ دراسة مركزها البيانات على الاستدلال متعدد المجالات عبر التعلم التعزيزي

Yu Li, Zhuoshi Pan, Honglin Lin, Mengyuan Sun, Conghui He, Lijun Wu
هل يمكن لحقل واحد أن يساعد الآخرين؟ دراسة مركزها البيانات على الاستدلال متعدد المجالات عبر التعلم التعزيزي
الملخص

التعلم بالتعزيز مع المكافآت القابلة للتحقق (RLVR) أصبح منهجًا قويًا لتعزيز قدرات التفكير لدى نماذج اللغة الكبيرة (LLMs). تركز الأبحاث الحالية بشكل كبير على مجالات التفكير المنعزلة مثل حل المشكلات الرياضية، المهام البرمجية، أو التفكير المنطقي. ومع ذلك، تتطلب سيناريوهات التفكير في العالم الحقيقي تطبيقًا متكاملًا لمهارات إدراكية متعددة. على الرغم من ذلك، لا يزال تفاعل هذه المهارات في سياق التعلم بالتعزيز غير مفهوم بشكل كافٍ. لسد هذه الفجوة، نقدم دراسة منهجية لفهم التفكير متعدد المجالات ضمن إطار RLVR، مع التركيز بشكل صريح على ثلاثة مجالات رئيسية: التفكير الرياضي، إنشاء الكود، وحل الألغاز المنطقية. نقوم بدراسة شاملة تتكون من أربعة مكونات رئيسية: (1) باستخدام خوارزمية GRPO وعائلة نماذج Qwen-2.5-7B، تقيّم دراستنا بشكل مفصّل تحسينات النماذج داخل المجال ومهاراتها في التعميم عبر المجالات عند تدريبها على مجموعات بيانات ذات مجال واحد. (2) بالإضافة إلى ذلك، ندرس التفاعلات المعقدة التي تشمل التحسينات المتبادلة والصراعات التي تظهر أثناء التدريب عبر المجالات. (3) لفهم تأثير SFT على التعلم بالتعزيز بشكل أفضل، نقوم أيضًا بتحليل ومقارنة أداء النماذج الأساسية والنموذج الموجه تحت نفس التكوينات للتعلم بالتعزيز. (4) علاوة على ذلك، نستكشف جوانب التدريب الحاسمة في RL، وندرس بشكل منهجي تأثير استراتيجيات التعلم التدريجي، وتباينات تصميم المكافآت، والعوامل الخاصة باللغة. من خلال تجارب مكثفة، تقدم نتائجنا رؤى مهمة حول الديناميكيات التي تتحكم في تفاعل المجالات، مكشفة العوامل الأساسية المؤثرة في الأداء التفكيري المتخصص والأداء القابل للتعميم. تقدم هذه النتائج توجيهات قيّمة لتحسين مناهج التعلم بالتعزيز لتعزيز قدرات التفكير متعدد المجالات في نماذج اللغة الكبيرة (LLMs).