Command Palette
Search for a command to run...
الثقة هي كل ما تحتاجه: تعديل نماذج اللغة باستخدام التعلم التعزيزي بقليل من البيانات
الثقة هي كل ما تحتاجه: تعديل نماذج اللغة باستخدام التعلم التعزيزي بقليل من البيانات
Li Pengyi Skripkin Matvey Zubrey Alexander Kuznetsov Andrey Oseledets Ivan
الملخص
النماذج اللغوية الكبيرة (LLMs) تتفوق في الاستدلال، ومع ذلك لا يزال التدريب ما بعد التكوين ضروريًا لتوافق سلوكها مع أهداف المهمة. غالبًا ما تعتمد طرق التعلم التعزيزي (RL) الحالية على التسميات الباهظة الثمن التي يقوم بها البشر أو نماذج المكافآت الخارجية. نقترح استخدام التعلم التعزيزي عبر الثقة الذاتية (RLSC)، والذي يستخدم ثقة النموذج الخاصة به كإشارة مكافأة - مما ي��除 الحاجة إلى التسميات، نماذج التفضيل، أو هندسة المكافآت. عند تطبيقه على Qwen2.5-Math-7B باستخدام 16 عينة فقط لكل سؤال و10 أو 20 خطوة تدريبية، يحسن RLSC الدقة بنسبة +13.4% في AIME2024، +21.2% في MATH500، +21.7% في Minerva Math، +20.8% في Olympiadbench، و+9.7% في AMC23. يوفر RLSC طريقة تدريب ما بعد التكوين بسيطة وقابلة للتوسع للنماذج الاستنتاجية، حيث يتطلب فقط عددًا صغيرًا من العينات والإشراف غير المصنف.注:在阿拉伯语中,“消”字应该是“يُلغِّي”,这是笔误,正确的翻译如下:النماذج اللغوية الكبيرة (LLMs) تتفوق في الاستدلال، ومع ذلك لا يزال التدريب ما بعد التكوين ضروريًا لتوافق سلوكها مع أهداف المهمة. غالبًا ما تعتمد طرق التعلم التعزيزي (RL) الحالية على التسميات الباهظة الثمن التي يقوم بها البشر أو نماذج المكافآت الخارجية. نقترح استخدام التعلم التعزيزي عبر الثقة الذاتية (RLSC)، والذي يستخدم ثقة النموذج الخاصة به كإشارة مكافأة - مما يُلغِّي الحاجة إلى التسميات، نماذج التفضيل، أو هندسة المكافآت. عند تطبيقه على Qwen2.5-Math-7B باستخدام 16 عينة فقط لكل سؤال و10 أو 20 خطوة تدريبية، يحسن RLSC الدقة بنسبة +13.4% في AIME2024، +21.2% في MATH500، +21.7% في Minerva Math، +20.8% في Olympiadbench، و+9.7% في AMC23. يوفر RLSC طريقة تدريب ما بعد التكوين بسيطة وقابلة للتوسع للنماذج الاستنتاجية، حيث يتطلب فقط عددًا صغيرًا من العينات والإشراف غير المصنف.