HyperAI

حول السياسة

نفس الاستراتيجيةوهذا يعني أن استراتيجية إنشاء العينات هي نفسها استراتيجية تحديث معلمات الشبكة. يقوم بشكل مباشر باختيار الإجراء التالي استنادًا إلى الاستراتيجية الحالية، ثم يستخدم هذه العينة لتحديث الاستراتيجية. إن استراتيجية توليد العينات هي نفس الاستراتيجية المستخدمة أثناء التعلم.

خوارزمية سارسا

SARSA (State-Action-Reward-State-Action) هي خوارزمية لتعلم استراتيجيات عملية اتخاذ القرار ماركوف، والتي تستخدم غالبًا في التعلم التعزيزي في مجال التعلم الآلي.

النقاط الرئيسية لخوارزمية SARSA

  • عندما تكون في حالة 's'، فأنت تعرف أي 'a' يجب اتخاذه واتخاذ هذا الإجراء؛
  • إن اختيار الإجراء a يتبع استراتيجية الجشع الإلكتروني، وحساب قيمة Q المستهدفة يعتمد على الإجراء a' الذي تم الحصول عليه من خلال استراتيجية الجشع الإلكتروني، وبالتالي فهو تعلم على السياسة.

مزايا وعيوب نفس الاستراتيجية

  • المزايا: يمكن تحديث كل خطوة، وهو أمر واضح، وسرعة التعلم سريعة؛ يمكنه مواجهة السيناريوهات التي لا تؤدي إلى نتائج ولديه مجموعة واسعة من التطبيقات.
  • السلبيات: مواجهة التناقض بين الاستكشاف والاستخدام؛ إن استخدام الخيار الأمثل المعروف فقط قد لا يؤدي إلى تعلم الحل الأمثل؛ التقارب نحو المستوى الأمثل محليًا، وإضافة الاستكشاف وتقليل كفاءة التعلم.

نفس الاستراتيجية واستراتيجيات مختلفة

الفرق بين نفس الاستراتيجية والاستراتيجيات المختلفة هو ما إذا كان يجب استخدام الاستراتيجية القائمة أو استراتيجية جديدة عند تحديث قيمة Q.