HyperAIHyperAI

Command Palette

Search for a command to run...

منذ شهر واحد

تحسين السياسة المُنظم بالانتروبيا لوكالات نماذج اللغة الكبيرة التعلم المعزز

Xu Wujiang Wentian Zhao Zhenting Wang Li Yu-Jhe Jin Can Jin Mingyu Mei Kai Wan Kun Metaxas Dimitris

تحسين السياسة المُنظم بالانتروبيا لوكالات نماذج اللغة الكبيرة
التعلم المعزز

الملخص

يُعد تدريب وكلاء النماذج الكبيرة للغة (LLM) في بيئات متعددة الجولات ذات مكافآت نادرة، حيث يتطلب إنجاز مهمة واحدة تفاعلًا يتجاوز 30 جولة ضمن كل حلقة، تحديًا جوهريًا أمام التعلم القائم على التغذية الراجعة (Reinforcement Learning). نحدد نمطًا فشلًا حاسمًا يميز هذا السياق: فشل التسلسل التراكمي بين الاستكشاف والاستغلال. يبدأ هذا التسلسل باندماج مبكر للسياسة (premature convergence) في المراحل المبكرة، حيث تؤدي التغذية الراجعة النادرة إلى التزام الوكيل باستراتيجيات خاطئة ذات إنتروبيا منخفضة. ثم ينتقل الوكيل إلى انهيار متأخر للسياسة، حيث تصبح تنظيمات الإنتروبيا التقليدية مضرة، وتدفع إلى استكشاف فوضوي يُعطل عملية التدريب. نقترح إطارًا عامًا يُسمى "تحسين السياسة المُنظَّم بالإنتروبيا" (Entropy-regularized Policy Optimization - EPO)، الذي يُكسر هذا الدور التراكمي من خلال ثلاث آليات متكاملة: (1) تطبيق تنظيم الإنتروبيا في السياقات متعددة الجولات لتعزيز الاستكشاف، (2) مُنظِّم تمهيد الإنتروبيا الذي يُقيّد إنتروبيا السياسة ضمن المتوسطات التاريخية لمنع التقلبات المفاجئة، و(3) وزن تكيفي قائم على المراحل يوازن بين الاستكشاف والاستغلال طوال عملية التدريب. تُبرر تحليلاتنا أن EPO يضمن انخفاضًا متزايدًا في تباين الإنتروبيا مع الحفاظ على التقارب. وقد حقق EPO تحسنًا أداءً يصل إلى 152% على منصة ScienceWorld، و19.8% على منصة ALFWorld. تُظهر هذه الدراسة أن البيئات متعددة الجولات ذات المكافآت النادرة تتطلب تحكمًا جوهريًا مختلفًا بالإنتروبيا مقارنة بالتعلم القائم على التغذية الراجعة التقليدي، مما يفتح آفاقًا واسعة لتطوير وكالات النماذج الكبيرة للغة.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
تحسين السياسة المُنظم بالانتروبيا لوكالات نماذج اللغة الكبيرة التعلم المعزز | الأوراق البحثية | HyperAI