HyperAIHyperAI

Command Palette

Search for a command to run...

حول السياسة

التاريخ

منذ 2 أعوام

نفس الاستراتيجيةوهذا يعني أن استراتيجية إنشاء العينات هي نفسها استراتيجية تحديث معلمات الشبكة. يقوم بشكل مباشر باختيار الإجراء التالي استنادًا إلى الاستراتيجية الحالية، ثم يستخدم هذه العينة لتحديث الاستراتيجية. إن استراتيجية توليد العينات هي نفس الاستراتيجية المستخدمة أثناء التعلم.

خوارزمية سارسا

SARSA (State-Action-Reward-State-Action) هي خوارزمية لتعلم استراتيجيات عملية اتخاذ القرار ماركوف، والتي تستخدم غالبًا في التعلم التعزيزي في مجال التعلم الآلي.

النقاط الرئيسية لخوارزمية SARSA

  • عندما تكون في حالة 's'، فأنت تعرف أي 'a' يجب اتخاذه واتخاذ هذا الإجراء؛
  • إن اختيار الإجراء a يتبع استراتيجية الجشع الإلكتروني، وحساب قيمة Q المستهدفة يعتمد على الإجراء a' الذي تم الحصول عليه من خلال استراتيجية الجشع الإلكتروني، وبالتالي فهو تعلم على السياسة.

مزايا وعيوب نفس الاستراتيجية

  • المزايا: يمكن تحديث كل خطوة، وهو أمر واضح، وسرعة التعلم سريعة؛ يمكنه مواجهة السيناريوهات التي لا تؤدي إلى نتائج ولديه مجموعة واسعة من التطبيقات.
  • السلبيات: مواجهة التناقض بين الاستكشاف والاستخدام؛ إن استخدام الخيار الأمثل المعروف فقط قد لا يؤدي إلى تعلم الحل الأمثل؛ التقارب نحو المستوى الأمثل محليًا، وإضافة الاستكشاف وتقليل كفاءة التعلم.

نفس الاستراتيجية واستراتيجيات مختلفة

الفرق بين نفس الاستراتيجية والاستراتيجيات المختلفة هو ما إذا كان يجب استخدام الاستراتيجية القائمة أو استراتيجية جديدة عند تحديث قيمة Q.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp