تحسين سياسة التعلم المُعزَّز بالذكاء

التعلم بالتعزيز على نطاق واسع مع مكافآت قابلة للتحقق (RLVR) أثبت فعاليته في استغلال إمكانات نماذج اللغة الكبيرة (LLMs) في المهام التي تتطلب التفكير في خطوة واحدة. في السيناريوهات الواقعية للتفكير، يمكن لنماذج اللغة الكبيرة استخدام أدوات خارجية لمساعدتها في عمليات حل المهام. ومع ذلك، لا توازن الخوارزميات الحالية للتعلم بالتعزيز بشكل كافٍ بين قدرات النموذج طويلة المدى للتفكير وخبرته في التفاعلات متعددة الخطوات مع الأدوات. لسد هذه الفجوة، نقترح خوارزمية تعلم بالتعزيز العاجي (ARPO)، وهي خوارزمية جديدة للتعلم بالتعزيز تعتمد على الوكالة، وتُعدّ لتدريب الوكالات القائمة على نماذج اللغة الكبيرة التي تتطلب تفاعلات متعددة الخطوات. من خلال تجارب أولية، لاحظنا أن نماذج اللغة الكبيرة تميل إلى أن تظهر سلوكًا غير مؤكد، يتميز بزيادة في توزيع الإنتروبيا للرسومات (tokens) المُولدة، مباشرة بعد التفاعل مع أدوات خارجية. مستوحاة من هذه الملاحظة، تُدمج ARPO آليّة توليد مسارات تعتمد على الإنتروبيا، وتوازن بشكل ديناميكي بين عينة المسار العالمية وعينة الخطوة، مما يعزز الاستكشاف في الخطوات التي تتميز بالشك بعد استخدام الأدوات. من خلال دمج تقدير لتقسيم المزايا (advantage attribution estimation)، تتيح ARPO لنموذج اللغة الكبيرة أن تدرك فروق المزايا في التفاعلات الخطوة بخطوة مع الأدوات. تظهر تجاربنا على 13 معايير صعبة في مجالات التفكير الحسابي، والتفكير في المعرفة، والبحث العميق تفوق ARPO على خوارزميات التعلم بالتعزيز المستندة إلى المسار. ومن المثير للإعجاب أن ARPO تحقق أداءً أفضل باستخدام فقط نصف ميزانية استخدام الأدوات المطلوبة من الطرق الحالية، مما يوفر حلًا قابلاً للتوسع لتوسيق الوكالات القائمة على نماذج اللغة الكبيرة مع البيئات الديناميكية في الوقت الفعلي. تم إصدار الكود والبيانات الخاصة بنا على https://github.com/dongguanting/ARPO