منذ 7 أشهر

الملخص

التعلم بالتعزيز مع المكافآت القابلة للتحقق (RLVR) أصبح منهجًا قويًا لتعزيز قدرات التفكير لدى نماذج اللغة الكبيرة (LLMs). تركز الأبحاث الحالية بشكل كبير على مجالات التفكير المنعزلة مثل حل المشكلات الرياضية، المهام البرمجية، أو التفكير المنطقي. ومع ذلك، تتطلب سيناريوهات التفكير في العالم الحقيقي تطبيقًا متكاملًا لمهارات إدراكية متعددة. على الرغم من ذلك، لا يزال تفاعل هذه المهارات في سياق التعلم بالتعزيز غير مفهوم بشكل كافٍ. لسد هذه الفجوة، نقدم دراسة منهجية لفهم التفكير متعدد المجالات ضمن إطار RLVR، مع التركيز بشكل صريح على ثلاثة مجالات رئيسية: التفكير الرياضي، إنشاء الكود، وحل الألغاز المنطقية. نقوم بدراسة شاملة تتكون من أربعة مكونات رئيسية: (1) باستخدام خوارزمية GRPO وعائلة نماذج Qwen-2.5-7B، تقيّم دراستنا بشكل مفصّل تحسينات النماذج داخل المجال ومهاراتها في التعميم عبر المجالات عند تدريبها على مجموعات بيانات ذات مجال واحد. (2) بالإضافة إلى ذلك، ندرس التفاعلات المعقدة التي تشمل التحسينات المتبادلة والصراعات التي تظهر أثناء التدريب عبر المجالات. (3) لفهم تأثير SFT على التعلم بالتعزيز بشكل أفضل، نقوم أيضًا بتحليل ومقارنة أداء النماذج الأساسية والنموذج الموجه تحت نفس التكوينات للتعلم بالتعزيز. (4) علاوة على ذلك، نستكشف جوانب التدريب الحاسمة في RL، وندرس بشكل منهجي تأثير استراتيجيات التعلم التدريجي، وتباينات تصميم المكافآت، والعوامل الخاصة باللغة. من خلال تجارب مكثفة، تقدم نتائجنا رؤى مهمة حول الديناميكيات التي تتحكم في تفاعل المجالات، مكشفة العوامل الأساسية المؤثرة في الأداء التفكيري المتخصص والأداء القابل للتعميم. تقدم هذه النتائج توجيهات قيّمة لتحسين مناهج التعلم بالتعزيز لتعزيز قدرات التفكير متعدد المجالات في نماذج اللغة الكبيرة (LLMs).

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Yu Li Zhuoshi Pan Honglin Lin Mengyuan Sun Conghui He Lijun Wu

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Yu Li Zhuoshi Pan Honglin Lin Mengyuan Sun Conghui He Lijun Wu

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Yu Li Zhuoshi Pan Honglin Lin Mengyuan Sun Conghui He Lijun Wu

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

هل يمكن لحقل واحد أن يساعد الآخرين؟ دراسة مركزها البيانات على الاستدلال متعدد المجالات عبر التعلم التعزيزي

Yu Li Zhuoshi Pan Honglin Lin Mengyuan Sun Conghui He Lijun Wu

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

هل يمكن لحقل واحد أن يساعد الآخرين؟ دراسة مركزها البيانات على الاستدلال متعدد المجالات عبر التعلم التعزيزي

Yu Li Zhuoshi Pan Honglin Lin Mengyuan Sun Conghui He Lijun Wu

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

هل يمكن لحقل واحد أن يساعد الآخرين؟ دراسة مركزها البيانات على الاستدلال متعدد المجالات عبر التعلم التعزيزي

Yu Li Zhuoshi Pan Honglin Lin Mengyuan Sun Conghui He Lijun Wu

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters