HyperAIHyperAI

Command Palette

Search for a command to run...

الثقة هي كل ما تحتاجه: تعديل نماذج اللغة باستخدام التعلم التعزيزي بقليل من البيانات

Li Pengyi Skripkin Matvey Zubrey Alexander Kuznetsov Andrey Oseledets Ivan

الملخص

النماذج اللغوية الكبيرة (LLMs) تتفوق في الاستدلال، ومع ذلك لا يزال التدريب ما بعد التكوين ضروريًا لتوافق سلوكها مع أهداف المهمة. غالبًا ما تعتمد طرق التعلم التعزيزي (RL) الحالية على التسميات الباهظة الثمن التي يقوم بها البشر أو نماذج المكافآت الخارجية. نقترح استخدام التعلم التعزيزي عبر الثقة الذاتية (RLSC)، والذي يستخدم ثقة النموذج الخاصة به كإشارة مكافأة - مما ي��除 الحاجة إلى التسميات، نماذج التفضيل، أو هندسة المكافآت. عند تطبيقه على Qwen2.5-Math-7B باستخدام 16 عينة فقط لكل سؤال و10 أو 20 خطوة تدريبية، يحسن RLSC الدقة بنسبة +13.4% في AIME2024، +21.2% في MATH500، +21.7% في Minerva Math، +20.8% في Olympiadbench، و+9.7% في AMC23. يوفر RLSC طريقة تدريب ما بعد التكوين بسيطة وقابلة للتوسع للنماذج الاستنتاجية، حيث يتطلب فقط عددًا صغيرًا من العينات والإشراف غير المصنف.注:在阿拉伯语中,“消”字应该是“يُلغِّي”,这是笔误,正确的翻译如下:النماذج اللغوية الكبيرة (LLMs) تتفوق في الاستدلال، ومع ذلك لا يزال التدريب ما بعد التكوين ضروريًا لتوافق سلوكها مع أهداف المهمة. غالبًا ما تعتمد طرق التعلم التعزيزي (RL) الحالية على التسميات الباهظة الثمن التي يقوم بها البشر أو نماذج المكافآت الخارجية. نقترح استخدام التعلم التعزيزي عبر الثقة الذاتية (RLSC)، والذي يستخدم ثقة النموذج الخاصة به كإشارة مكافأة - مما يُلغِّي الحاجة إلى التسميات، نماذج التفضيل، أو هندسة المكافآت. عند تطبيقه على Qwen2.5-Math-7B باستخدام 16 عينة فقط لكل سؤال و10 أو 20 خطوة تدريبية، يحسن RLSC الدقة بنسبة +13.4% في AIME2024، +21.2% في MATH500، +21.7% في Minerva Math، +20.8% في Olympiadbench، و+9.7% في AMC23. يوفر RLSC طريقة تدريب ما بعد التكوين بسيطة وقابلة للتوسع للنماذج الاستنتاجية، حيث يتطلب فقط عددًا صغيرًا من العينات والإشراف غير المصنف.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
الثقة هي كل ما تحتاجه: تعديل نماذج اللغة باستخدام التعلم التعزيزي بقليل من البيانات | مستندات | HyperAI