Command Palette
Search for a command to run...
إعادة النظر في التعلم التعزيزي للمنطق اللغوي الكبير من منظور متعدد المجالات

الملخص
ظهر التعلم التعزيزي (RL) كنهج واعد لتحسين قدرات النماذج اللغوية الكبيرة (LLM) في الاستدلال، ومع ذلك تركز معظم الجهود المفتوحة بشكل ضيق على الرياضيات والبرمجة، مما يحد من فهمنا لقدرتها على التطبيق الأوسع في الاستدلال العام. تحدي رئيسي يكمن في نقص إشارات مكافأة تعزيزية موثوقة وقابلة للتوسع عبر مجالات استدلال متنوعة. نقدم "غورو" (Guru)، وهو مجموعة بيانات منطقية مختارة بعناية تحتوي على 92 ألف مثال قابل للتحقق تغطي ستة مجالات استدلال--الرياضيات، البرمجة، العلوم، المنطق، المحاكاة، والجداول--كل منها تم بناؤه من خلال تصميم مكافآت خاصة بالمجال، وإزالة التكرارات، والتصفية لضمان الموثوقية والفعالية في تدريب RL. بناءً على غورو، نعيد النظر بطريقة منهجية في النتائج المعروفة في RL للاستدلال باستخدام LLM ونلاحظ اختلافًا كبيرًا بين المجالات. على سبيل المثال، بينما تقترح الدراسات السابقة أن RL يثير بشكل أساسي المعرفة الموجودة في النماذج المدربة مسبقًا، تكشف نتائجنا عن نمط أكثر تعقيدًا: المجالات التي تظهر بكثرة أثناء التدريب المسبق (الرياضيات، البرمجة، العلوم) تستفيد بسهولة من التدريب التعزيزي عبر المجالات المختلفة، بينما تتطلب المجالات ذات التعرض المحدود للتدريب المسبق (المنطق، المحاكاة، الجداول) تدريبًا ضمنيًا لتحقيق زيادة معنوية في الأداء، مما يشير إلى أن RL من المرجح أن يسهل اكتساب المهارات الحقيقية. أخيرًا، نقدم "غورو-7B" و"غورو-32B"، وهما نموذجان يحققان أفضل الأداء بين النماذج المفتوحة التي تم تدريبها بالتعلم التعزيزي باستخدام البيانات المتاحة علنًا، حيث يتفوقان بنسبة 7.9% و6.7% على أفضل النماذج الأساسية في مجموعة تقييم تتكون من 17 مهمة عبر ستة مجالات استدلال. كما نوضح أن نماذجنا تحسن بشكل فعال أداء Pass@k لنماذجها الأساسية، خاصةً في المهام المعقدة التي لا تظهر بسهولة في بيانات التدريب المسبق. سنقوم بإطلاق البيانات والنماذج وكود التدريب والتقييم لتسهيل الاستدلال العام عند: هذا الرابط https URL
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.