الملخص

ظهر التعلم التعزيزي (RL) كنهج واعد لتحسين قدرات النماذج اللغوية الكبيرة (LLM) في الاستدلال، ومع ذلك تركز معظم الجهود المفتوحة بشكل ضيق على الرياضيات والبرمجة، مما يحد من فهمنا لقدرتها على التطبيق الأوسع في الاستدلال العام. تحدي رئيسي يكمن في نقص إشارات مكافأة تعزيزية موثوقة وقابلة للتوسع عبر مجالات استدلال متنوعة. نقدم "غورو" (Guru)، وهو مجموعة بيانات منطقية مختارة بعناية تحتوي على 92 ألف مثال قابل للتحقق تغطي ستة مجالات استدلال--الرياضيات، البرمجة، العلوم، المنطق، المحاكاة، والجداول--كل منها تم بناؤه من خلال تصميم مكافآت خاصة بالمجال، وإزالة التكرارات، والتصفية لضمان الموثوقية والفعالية في تدريب RL. بناءً على غورو، نعيد النظر بطريقة منهجية في النتائج المعروفة في RL للاستدلال باستخدام LLM ونلاحظ اختلافًا كبيرًا بين المجالات. على سبيل المثال، بينما تقترح الدراسات السابقة أن RL يثير بشكل أساسي المعرفة الموجودة في النماذج المدربة مسبقًا، تكشف نتائجنا عن نمط أكثر تعقيدًا: المجالات التي تظهر بكثرة أثناء التدريب المسبق (الرياضيات، البرمجة، العلوم) تستفيد بسهولة من التدريب التعزيزي عبر المجالات المختلفة، بينما تتطلب المجالات ذات التعرض المحدود للتدريب المسبق (المنطق، المحاكاة، الجداول) تدريبًا ضمنيًا لتحقيق زيادة معنوية في الأداء، مما يشير إلى أن RL من المرجح أن يسهل اكتساب المهارات الحقيقية. أخيرًا، نقدم "غورو-7B" و"غورو-32B"، وهما نموذجان يحققان أفضل الأداء بين النماذج المفتوحة التي تم تدريبها بالتعلم التعزيزي باستخدام البيانات المتاحة علنًا، حيث يتفوقان بنسبة 7.9% و6.7% على أفضل النماذج الأساسية في مجموعة تقييم تتكون من 17 مهمة عبر ستة مجالات استدلال. كما نوضح أن نماذجنا تحسن بشكل فعال أداء Pass@k لنماذجها الأساسية، خاصةً في المهام المعقدة التي لا تظهر بسهولة في بيانات التدريب المسبق. سنقوم بإطلاق البيانات والنماذج وكود التدريب والتقييم لتسهيل الاستدلال العام عند: هذا الرابط https URL

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Command Palette

إعادة النظر في التعلم التعزيزي للمنطق اللغوي الكبير من منظور متعدد المجالات

Zhoujun Cheng Shibo Hao Tianyang Liu Fan Zhou Yutao Xie Feng Yao Yuexin Bian Yonghao Zhuang Nilabjo Dey Yuheng Zha14 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

إعادة النظر في التعلم التعزيزي للمنطق اللغوي الكبير من منظور متعدد المجالات

Zhoujun Cheng Shibo Hao Tianyang Liu Fan Zhou Yutao Xie Feng Yao Yuexin Bian Yonghao Zhuang Nilabjo Dey Yuheng Zha14 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

إعادة النظر في التعلم التعزيزي للمنطق اللغوي الكبير من منظور متعدد المجالات

Zhoujun Cheng Shibo Hao Tianyang Liu Fan Zhou Yutao Xie Feng Yao Yuexin Bian Yonghao Zhuang Nilabjo Dey Yuheng Zha14 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Zhoujun Cheng Shibo Hao Tianyang Liu Fan Zhou Yutao Xie Feng Yao Yuexin Bian Yonghao Zhuang Nilabjo Dey Yuheng Zha

Zhoujun Cheng Shibo Hao Tianyang Liu Fan Zhou Yutao Xie Feng Yao Yuexin Bian Yonghao Zhuang Nilabjo Dey Yuheng Zha

Zhoujun Cheng Shibo Hao Tianyang Liu Fan Zhou Yutao Xie Feng Yao Yuexin Bian Yonghao Zhuang Nilabjo Dey Yuheng Zha