HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 4 أشهر

إعادة النظر في التعلم التعزيزي للمنطق اللغوي الكبير من منظور متعدد المجالات

إعادة النظر في التعلم التعزيزي للمنطق اللغوي الكبير من منظور متعدد المجالات

الملخص

ظهر التعلم التعزيزي (RL) كنهج واعد لتحسين قدرات النماذج اللغوية الكبيرة (LLM) في الاستدلال، ومع ذلك تركز معظم الجهود المفتوحة بشكل ضيق على الرياضيات والبرمجة، مما يحد من فهمنا لقدرتها على التطبيق الأوسع في الاستدلال العام. تحدي رئيسي يكمن في نقص إشارات مكافأة تعزيزية موثوقة وقابلة للتوسع عبر مجالات استدلال متنوعة. نقدم "غورو" (Guru)، وهو مجموعة بيانات منطقية مختارة بعناية تحتوي على 92 ألف مثال قابل للتحقق تغطي ستة مجالات استدلال--الرياضيات، البرمجة، العلوم، المنطق، المحاكاة، والجداول--كل منها تم بناؤه من خلال تصميم مكافآت خاصة بالمجال، وإزالة التكرارات، والتصفية لضمان الموثوقية والفعالية في تدريب RL. بناءً على غورو، نعيد النظر بطريقة منهجية في النتائج المعروفة في RL للاستدلال باستخدام LLM ونلاحظ اختلافًا كبيرًا بين المجالات. على سبيل المثال، بينما تقترح الدراسات السابقة أن RL يثير بشكل أساسي المعرفة الموجودة في النماذج المدربة مسبقًا، تكشف نتائجنا عن نمط أكثر تعقيدًا: المجالات التي تظهر بكثرة أثناء التدريب المسبق (الرياضيات، البرمجة، العلوم) تستفيد بسهولة من التدريب التعزيزي عبر المجالات المختلفة، بينما تتطلب المجالات ذات التعرض المحدود للتدريب المسبق (المنطق، المحاكاة، الجداول) تدريبًا ضمنيًا لتحقيق زيادة معنوية في الأداء، مما يشير إلى أن RL من المرجح أن يسهل اكتساب المهارات الحقيقية. أخيرًا، نقدم "غورو-7B" و"غورو-32B"، وهما نموذجان يحققان أفضل الأداء بين النماذج المفتوحة التي تم تدريبها بالتعلم التعزيزي باستخدام البيانات المتاحة علنًا، حيث يتفوقان بنسبة 7.9% و6.7% على أفضل النماذج الأساسية في مجموعة تقييم تتكون من 17 مهمة عبر ستة مجالات استدلال. كما نوضح أن نماذجنا تحسن بشكل فعال أداء Pass@k لنماذجها الأساسية، خاصةً في المهام المعقدة التي لا تظهر بسهولة في بيانات التدريب المسبق. سنقوم بإطلاق البيانات والنماذج وكود التدريب والتقييم لتسهيل الاستدلال العام عند: هذا الرابط https URL

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
إعادة النظر في التعلم التعزيزي للمنطق اللغوي الكبير من منظور متعدد المجالات | الأوراق البحثية | HyperAI