HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 16 أيام

تحسين السياسة المتوازنة المدعومة بالانتروبيا العاملة

تحسين السياسة المتوازنة المدعومة بالانتروبيا العاملة

الملخص

في الآونة الأخيرة، حققت التعلم التفعيلي (Agentic RL) تقدماً ملحوظاً في تحفيز قدرات الوكلاء على الويب على استخدام الأدوات على مدى جولات متعددة وفترة زمنية طويلة. وعلى الرغم من أن الخوارزميات السائدة في التعلم التفعيلي تقوم تلقائياً باستكشاف خطوات استدعاء الأدوات ذات عدم اليقين العالي تحت إشراف مفهوم الإنتروبيا، فإن الاعتماد المفرط على إشارات الإنتروبيا قد يفرض قيوداً إضافية، ما يؤدي إلى انهيار عملية التدريب. في هذا البحث، نستعرض التحديات الناتجة عن الإنتروبيا ونُقدّم خوارزمية التعلم التفعيلي المُوازِنَة للإنتروبيا (AEPO)، وهي خوارزمية تفعيلية للتعلم بالتعزيز مصممة لتوازن الإنتروبيا في كل من مرحلتي التوليد (rollout) وتحديث السياسة. تتكوّن AEPO من مكوّنين رئيسيين: (1) آلية توليد مُوازنة ديناميكياً للإنتروبيا، التي تُوزّع تلقائياً ميزانية العينات العالمية والفرعية من خلال مراقبة مسبقة للإنتروبيا، مع فرض عقوبة على الخطوات المتتالية من استدعاء الأدوات ذات الإنتروبيا العالية لمنع مشكلة التفرع المفرط؛ و(2) تحسين السياسة المُوازنة للإنتروبيا، التي تُدمج عملية "إيقاف التدرج" (stop-gradient) في حد الإنتروبيا العالية، لحفظ التدرجات وتصحيحها بشكل مناسب على الرموز ذات الإنتروبيا العالية، مع دمج تقدير مُستشعر للإيجابية (advantage estimation) الذي يراعي الإنتروبيا، بهدف تفضيل التعلّم على الرموز ذات عدم اليقين العالي. أظهرت النتائج على 14 مجموعة بيانات صعبة أن AEPO تتفوّق باستمرار على 7 خوارزميات تعلم بالتعزيز السائدة. وباستخدام فقط 1000 عينة تدريبية من التعلم بالتعزيز، حقق نموذج Qwen3-14B مع AEPO نتائج مُبهرة: 47.6% في GAIA، و11.2% في Humanity's Last Exam، و43.0% في WebWalker بالنسبة لـ Pass@1؛ و65.0% في GAIA، و26.0% في Humanity's Last Exam، و70.0% في WebWalker بالنسبة لـ Pass@5. كما كشف التحليل الإضافي أن AEPO يُحسّن تنوع عينات التوليد مع الحفاظ على استقرار إنتروبيا السياسة، مما يُسهّل تدريب الوكلاء على الويب على نطاق واسع.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
تحسين السياسة المتوازنة المدعومة بالانتروبيا العاملة | الأوراق البحثية | HyperAI