منذ 8 أشهر

الملخص

النماذج اللغوية الكبيرة (LLMs) تتفوق في الاستدلال، ومع ذلك لا يزال التدريب ما بعد التكوين ضروريًا لتوافق سلوكها مع أهداف المهمة. غالبًا ما تعتمد طرق التعلم التعزيزي (RL) الحالية على التسميات الباهظة الثمن التي يقوم بها البشر أو نماذج المكافآت الخارجية. نقترح استخدام التعلم التعزيزي عبر الثقة الذاتية (RLSC)، والذي يستخدم ثقة النموذج الخاصة به كإشارة مكافأة - مما ي��除 الحاجة إلى التسميات، نماذج التفضيل، أو هندسة المكافآت. عند تطبيقه على Qwen2.5-Math-7B باستخدام 16 عينة فقط لكل سؤال و10 أو 20 خطوة تدريبية، يحسن RLSC الدقة بنسبة +13.4% في AIME2024، +21.2% في MATH500، +21.7% في Minerva Math، +20.8% في Olympiadbench، و+9.7% في AMC23. يوفر RLSC طريقة تدريب ما بعد التكوين بسيطة وقابلة للتوسع للنماذج الاستنتاجية، حيث يتطلب فقط عددًا صغيرًا من العينات والإشراف غير المصنف.注：在阿拉伯语中，“消”字应该是“يُلغِّي”，这是笔误，正确的翻译如下：النماذج اللغوية الكبيرة (LLMs) تتفوق في الاستدلال، ومع ذلك لا يزال التدريب ما بعد التكوين ضروريًا لتوافق سلوكها مع أهداف المهمة. غالبًا ما تعتمد طرق التعلم التعزيزي (RL) الحالية على التسميات الباهظة الثمن التي يقوم بها البشر أو نماذج المكافآت الخارجية. نقترح استخدام التعلم التعزيزي عبر الثقة الذاتية (RLSC)، والذي يستخدم ثقة النموذج الخاصة به كإشارة مكافأة - مما يُلغِّي الحاجة إلى التسميات، نماذج التفضيل، أو هندسة المكافآت. عند تطبيقه على Qwen2.5-Math-7B باستخدام 16 عينة فقط لكل سؤال و10 أو 20 خطوة تدريبية، يحسن RLSC الدقة بنسبة +13.4% في AIME2024، +21.2% في MATH500، +21.7% في Minerva Math، +20.8% في Olympiadbench، و+9.7% في AMC23. يوفر RLSC طريقة تدريب ما بعد التكوين بسيطة وقابلة للتوسع للنماذج الاستنتاجية، حيث يتطلب فقط عددًا صغيرًا من العينات والإشراف غير المصنف.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Li Pengyi Skripkin Matvey Zubrey Alexander Kuznetsov Andrey Oseledets Ivan

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Li Pengyi Skripkin Matvey Zubrey Alexander Kuznetsov Andrey Oseledets Ivan

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Li Pengyi Skripkin Matvey Zubrey Alexander Kuznetsov Andrey Oseledets Ivan

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

الثقة هي كل ما تحتاجه: تعديل نماذج اللغة باستخدام التعلم التعزيزي بقليل من البيانات

Li Pengyi Skripkin Matvey Zubrey Alexander Kuznetsov Andrey Oseledets Ivan

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

الثقة هي كل ما تحتاجه: تعديل نماذج اللغة باستخدام التعلم التعزيزي بقليل من البيانات

Li Pengyi Skripkin Matvey Zubrey Alexander Kuznetsov Andrey Oseledets Ivan

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

الثقة هي كل ما تحتاجه: تعديل نماذج اللغة باستخدام التعلم التعزيزي بقليل من البيانات

Li Pengyi Skripkin Matvey Zubrey Alexander Kuznetsov Andrey Oseledets Ivan

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters