HyperAIHyperAI

Command Palette

Search for a command to run...

سياسة الإيقاف

التاريخ

منذ 7 أعوام

استراتيجيات مختلفةوهذا يعني أن استراتيجية إنشاء عينات جديدة تختلف عن الاستراتيجية المستخدمة عند تحديث الشبكة للمعلمات. ومن الأمثلة النموذجية على ذلك خوارزمية التعلم Q.

تفكير استراتيجي مختلف

تشير الاستراتيجيات المختلفة إلى أن الاستراتيجية التي تم تعلمها تختلف عن الاستراتيجية التي تم أخذ العينة منها. يقوم أولاً بإنشاء كمية كبيرة من بيانات السلوك تحت توزيع احتمالي معين، ثم يجد استراتيجية الهدف من هذه البيانات التي تنحرف عن الاستراتيجية غير المثالية.

يتطلب اعتماد هذه الخطة استيفاء الشروط التالية: بافتراض أن π هي استراتيجية الهدف و μ هي استراتيجية السلوك، فإن شرط التعلم من μ إلى π هو أنه عندما π (a | s) > 0، يجب أن يتحقق µ (a | s) > 0.

خوارزمية التعلم Q

تتعلم خوارزمية التعلم Q كيفية اختيار الإجراء التالي استنادًا إلى المكافآت والعقوبات المتصورة، حيث يمثل Q دالة الجودة للسياسة π، والتي تقوم بربط كل زوج من الحالة-الإجراء (s، a) بالمكافأة المستقبلية المتوقعة الإجمالية بعد ملاحظة الحالة s وتحديد الإجراء a.

خوارزمية Q-Learning خالية من النماذج، مما يعني أنها لا تقوم بنمذجة المعرفة الديناميكية لـ MDP، ولكنها تقدر قيم Q للإجراءات المختلفة في كل حالة بشكل مباشر، ثم تختار الإجراء الذي يحتوي على أعلى قيمة Q في كل حالة والاستراتيجية المقابلة.

إذا تمكن الكمبيوتر من الوصول بشكل مستمر إلى جميع إجراءات الحالة، فسوف تتقارب خوارزمية التعلم Q إلى دالة Q المثلى.

مزايا استراتيجية مختلفة

  • يمكن التعلم بناءً على عينات تعليمية يقدمها البشر أو عينات موجهة يقدمها وكلاء آخرون؛
  • يمكن الاستفادة من الخبرة المكتسبة من الاستراتيجيات القديمة؛
  • من الممكن تعلم سياسة حتمية أثناء استخدام سياسة استكشافية؛
  • يمكنك استخدام استراتيجية واحدة لتجربة وتعلم استراتيجيات متعددة في نفس الوقت.
المصطلحات ذات الصلة: نفس الاستراتيجية، وظيفة الاستراتيجية

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
سياسة الإيقاف | الموسوعة | HyperAI