HyperAIHyperAI

Command Palette

Search for a command to run...

هل يمكن لحقل واحد أن يساعد الآخرين؟ دراسة مركزها البيانات على الاستدلال متعدد المجالات عبر التعلم التعزيزي

Yu Li Zhuoshi Pan Honglin Lin Mengyuan Sun Conghui He Lijun Wu

الملخص

التعلم بالتعزيز مع المكافآت القابلة للتحقق (RLVR) أصبح منهجًا قويًا لتعزيز قدرات التفكير لدى نماذج اللغة الكبيرة (LLMs). تركز الأبحاث الحالية بشكل كبير على مجالات التفكير المنعزلة مثل حل المشكلات الرياضية، المهام البرمجية، أو التفكير المنطقي. ومع ذلك، تتطلب سيناريوهات التفكير في العالم الحقيقي تطبيقًا متكاملًا لمهارات إدراكية متعددة. على الرغم من ذلك، لا يزال تفاعل هذه المهارات في سياق التعلم بالتعزيز غير مفهوم بشكل كافٍ. لسد هذه الفجوة، نقدم دراسة منهجية لفهم التفكير متعدد المجالات ضمن إطار RLVR، مع التركيز بشكل صريح على ثلاثة مجالات رئيسية: التفكير الرياضي، إنشاء الكود، وحل الألغاز المنطقية. نقوم بدراسة شاملة تتكون من أربعة مكونات رئيسية: (1) باستخدام خوارزمية GRPO وعائلة نماذج Qwen-2.5-7B، تقيّم دراستنا بشكل مفصّل تحسينات النماذج داخل المجال ومهاراتها في التعميم عبر المجالات عند تدريبها على مجموعات بيانات ذات مجال واحد. (2) بالإضافة إلى ذلك، ندرس التفاعلات المعقدة التي تشمل التحسينات المتبادلة والصراعات التي تظهر أثناء التدريب عبر المجالات. (3) لفهم تأثير SFT على التعلم بالتعزيز بشكل أفضل، نقوم أيضًا بتحليل ومقارنة أداء النماذج الأساسية والنموذج الموجه تحت نفس التكوينات للتعلم بالتعزيز. (4) علاوة على ذلك، نستكشف جوانب التدريب الحاسمة في RL، وندرس بشكل منهجي تأثير استراتيجيات التعلم التدريجي، وتباينات تصميم المكافآت، والعوامل الخاصة باللغة. من خلال تجارب مكثفة، تقدم نتائجنا رؤى مهمة حول الديناميكيات التي تتحكم في تفاعل المجالات، مكشفة العوامل الأساسية المؤثرة في الأداء التفكيري المتخصص والأداء القابل للتعميم. تقدم هذه النتائج توجيهات قيّمة لتحسين مناهج التعلم بالتعزيز لتعزيز قدرات التفكير متعدد المجالات في نماذج اللغة الكبيرة (LLMs).


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
هل يمكن لحقل واحد أن يساعد الآخرين؟ دراسة مركزها البيانات على الاستدلال متعدد المجالات عبر التعلم التعزيزي | مستندات | HyperAI