Command Palette
Search for a command to run...
الاستكشاف في نماذج اللغة الكبيرة عبر تحسين تخصيص الميزانية: RL للحقيبة السياقية
Ziniu Li Congliang Chen Tianyun Yang Tian Ding Ruoyu Sun Ge Zhang Wenhao Huang Zhi-Quan Luo

الملخص
يمكن لنموذج اللغة الكبير (LLM) تحسين ذاته من خلال التعلم المعزز، حيث يقوم بتكوين مسارات استكشاف لاستكشاف حلول أفضل واكتشافها. لكن عملية الاستكشاف هذه مكلفة من حيث الحوسبة، ما يجبر الطرق الحالية غالبًا على تخصيص ميزانية استكشاف محدودة لكل مهمة. يؤدي هذا التخصيص الموحد إلى حالات حافة مشكلة: تنجح المهام السهلة بشكل متكرر، بينما تفشل المهام الصعبة بشكل متكرر، وكلتا الحالتين تنتجان تدرجات سياسة صفرية أثناء تحديثات التدريب باستخدام خوارزمية تحسين السياسة النسبية المجموعة (GRPO) الشائعة الاستخدام. نعالج هذه المشكلة من منظور تخصيص ميزانية الاستكشاف. ونظرًا لأن كل مهمة تُعتبر "عنصرًا" له "قيمة" و"تكلفة" مميزة، نربط هذه المشكلة بالمشكلة الكلاسيكية للحقيبة (knapsack problem). ويساعد هذا الصياغة في استخلاص قاعدة تخصيص مثلى تقوم بتوزيع الموارد بشكل تكيفي بناءً على حالة التعلم الحالية للنموذج. عند تطبيق هذه الطريقة على GRPO، تزيد من نسبة التدرجات غير الصفرية للسياسة الفعّالة خلال التدريب بنسبة تتراوح بين 20% و40%. وباعتبارها "وجبة مجانية" من حيث الحوسبة، يمكن لمنهجنا إعادة توزيع ميزانيات الاستكشاف من المهام التي تصل إلى حالة تشبع التعلم إلى تلك التي يكون التعلم فيها أكثر تأثيرًا. هذا يمكّن من تخصيص ميزانيات أكبر بكثير (مثلاً 93 تجربة) للمشكلات الصعبة بشكل خاص، وهو ما سيكون مكلفًا من الناحية الحاسوبية في حال التخصيص الموحد. تترجم هذه التحسينات إلى مكاسب ملموسة في اختبارات التفكير الرياضي، حيث تصل المكاسب المتوسطة إلى 2-4 نقاط، وتصل المكاسب القصوى إلى 9 نقاط في مهام محددة. وبشكل ملحوظ، لتحقيق أداء مماثل باستخدام التخصيص المتجانس التقليدي، سيتطلب الأمر حوالي ضعف الموارد الحاسوبية.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.