سياسة الإيقاف
استراتيجيات مختلفةوهذا يعني أن استراتيجية إنشاء عينات جديدة تختلف عن الاستراتيجية المستخدمة عند تحديث الشبكة للمعلمات. ومن الأمثلة النموذجية على ذلك خوارزمية التعلم Q.
تفكير استراتيجي مختلف
تشير الاستراتيجيات المختلفة إلى أن الاستراتيجية التي تم تعلمها تختلف عن الاستراتيجية التي تم أخذ العينة منها. يقوم أولاً بإنشاء كمية كبيرة من بيانات السلوك تحت توزيع احتمالي معين، ثم يجد استراتيجية الهدف من هذه البيانات التي تنحرف عن الاستراتيجية غير المثالية.
يتطلب اعتماد هذه الخطة استيفاء الشروط التالية: بافتراض أن π هي استراتيجية الهدف و μ هي استراتيجية السلوك، فإن شرط التعلم من μ إلى π هو أنه عندما π (a | s) > 0، يجب أن يتحقق µ (a | s) > 0.
خوارزمية التعلم Q
تتعلم خوارزمية التعلم Q كيفية اختيار الإجراء التالي استنادًا إلى المكافآت والعقوبات المتصورة، حيث يمثل Q دالة الجودة للسياسة π، والتي تقوم بربط كل زوج من الحالة-الإجراء (s، a) بالمكافأة المستقبلية المتوقعة الإجمالية بعد ملاحظة الحالة s وتحديد الإجراء a.
خوارزمية Q-Learning خالية من النماذج، مما يعني أنها لا تقوم بنمذجة المعرفة الديناميكية لـ MDP، ولكنها تقدر قيم Q للإجراءات المختلفة في كل حالة بشكل مباشر، ثم تختار الإجراء الذي يحتوي على أعلى قيمة Q في كل حالة والاستراتيجية المقابلة.
إذا تمكن الكمبيوتر من الوصول بشكل مستمر إلى جميع إجراءات الحالة، فسوف تتقارب خوارزمية التعلم Q إلى دالة Q المثلى.
مزايا استراتيجية مختلفة
- يمكن التعلم بناءً على عينات تعليمية يقدمها البشر أو عينات موجهة يقدمها وكلاء آخرون؛
- يمكن الاستفادة من الخبرة المكتسبة من الاستراتيجيات القديمة؛
- من الممكن تعلم سياسة حتمية أثناء استخدام سياسة استكشافية؛
- يمكنك استخدام استراتيجية واحدة لتجربة وتعلم استراتيجيات متعددة في نفس الوقت.