Command Palette
Search for a command to run...
PVPO: تحسين السياسة القائمة على القيمة المقدّرة مسبقًا للتفكير الوكلي
Wenfeng Feng Penghong Zhao Guochao Jiang Chuzhan Hao Yuewei Zhang Hao Wang

الملخص
تلقى الطرق المُحسَّنة لتعلم التقويم دون تقييم (Critic-free reinforcement learning)، وبخاصة السياسات الجماعية، اهتمامًا كبيرًا بفضل كفاءتها في أداء المهام المعقدة. ومع ذلك، تعتمد هذه الطرق بشكل كبير على أخذ عينات متعددة ومقارنات داخلية ضمن السياسة لتقدير الميزة، مما قد يؤدي إلى وقوع السياسة في حلول محلية، ويزيد من التكلفة الحسابية. ولحل هذه المشكلات، نقترح طريقة PVPO، وهي طريقة فعّالة لتعلم التقويم تعتمد على مرجع ميزة (advantage reference anchor) وتقديم عينات مسبقة للبيانات. بشكل محدد، نستخدم نموذجًا مرجعيًا لإجراء تقييم مسبق (rollout)، ونستخدم الدرجة المحسوبة للعائد كمرجع معياري. ويُسهم هذا النهج في تصحيح التحيز التراكمي الناتج عن المقارنات الداخلية بين المجموعات، ويقلل بشكل كبير من الاعتماد على عدد التقييمات (rollouts). وفي الوقت نفسه، يمكن للنموذج المرجعي تقييم صعوبة العينات أثناء عملية تجميع البيانات مسبقًا، مما يمكّن من اختيار البيانات ذات العائد العالي بشكل فعّال، وبالتالي تحسين كفاءة التدريب. أظهرت التجارب التي أُجريت على تسع مجموعات بيانات في مجالين مختلفين أن طريقة PVPO تحقق أداءً من الطراز الرائد (State-of-the-Art – SOTA). كما تُظهر هذه الطريقة قدرة قوية على التعميم عبر مهام متعددة، بالإضافة إلى أداء قابل للتوسع على نماذج بمقاييس مختلفة.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.