الملخص

أصبح التعلم بالتعزيز نموذجًا مُبَرَّرًا لتدريب النماذج اللغوية الكبيرة بعد التدريب، حيث يُعزز قدرات التفكير التمثيلي فيها. تعتمد هذه النماذج على حساب قيمة ميزة لكل عينة، تعكس أداءً أفضل أو أسوأ من المتوقع، مما يُنتج إشارات إيجابية وسلبية لعملية التدريب. ومع ذلك، فإن الخلط العشوائي بين هاتين الإشارتين في الطرق الحالية، خاصة في المراحل المبكرة، قد يؤدي إلى توجيه غامض وتحسينات محدودة. لمعالجة هذه المشكلة، نقترح CAPO (Curriculum Advantage Policy Optimization)، وهو آلية منهجية تكيفية تعتمد على إشارات الميزة. تُستخدم الآلية المُقترحة لتمكين التعلم بالمحاكاة باستخدام عينات ميزة إيجابية فقط لبناء أساس قوي، ثم تُدمج لاحقًا إشارات سلبية لتنمية القدرات التمييزية، مما يُحسّن التعميم في السيناريوهات المعقدة. وتمتاز طريقة العمل هذه بالتوافق مع مختلف أساليب التحسين، بما في ذلك GRPO وPPO وRLOO وReinforce++، حيث تحقق تحسينات مستقرة وملحوظة في مهام التفكير الرياضي، وتمتد فعاليتها بشكل فعّال إلى سيناريوهات التفكير متعددة الوسائط (GUI)، مما يُثبت مكانتها كإطار تحسين مرن وقوي.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Command Palette

من المحاكاة إلى التمييز: نحو آلية ميزة منهجية عامة تعزز المهام الاستدلالية عبر المجالات

Changpeng Yang Jinyang Wu Yuchen Liu Shuai Zhang Yang Li Qiliang Liang Hongzhen Wang Shuai Nie Jiaming Xu Runyu Shi2 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

من المحاكاة إلى التمييز: نحو آلية ميزة منهجية عامة تعزز المهام الاستدلالية عبر المجالات

Changpeng Yang Jinyang Wu Yuchen Liu Shuai Zhang Yang Li Qiliang Liang Hongzhen Wang Shuai Nie Jiaming Xu Runyu Shi2 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

من المحاكاة إلى التمييز: نحو آلية ميزة منهجية عامة تعزز المهام الاستدلالية عبر المجالات

Changpeng Yang Jinyang Wu Yuchen Liu Shuai Zhang Yang Li Qiliang Liang Hongzhen Wang Shuai Nie Jiaming Xu Runyu Shi2 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Changpeng Yang Jinyang Wu Yuchen Liu Shuai Zhang Yang Li Qiliang Liang Hongzhen Wang Shuai Nie Jiaming Xu Runyu Shi

Changpeng Yang Jinyang Wu Yuchen Liu Shuai Zhang Yang Li Qiliang Liang Hongzhen Wang Shuai Nie Jiaming Xu Runyu Shi

Changpeng Yang Jinyang Wu Yuchen Liu Shuai Zhang Yang Li Qiliang Liang Hongzhen Wang Shuai Nie Jiaming Xu Runyu Shi