التاريخ

منذ 8 أعوام

استراتيجيات مختلفةوهذا يعني أن استراتيجية إنشاء عينات جديدة تختلف عن الاستراتيجية المستخدمة عند تحديث الشبكة للمعلمات. ومن الأمثلة النموذجية على ذلك خوارزمية التعلم Q.

تفكير استراتيجي مختلف

تشير الاستراتيجيات المختلفة إلى أن الاستراتيجية التي تم تعلمها تختلف عن الاستراتيجية التي تم أخذ العينة منها. يقوم أولاً بإنشاء كمية كبيرة من بيانات السلوك تحت توزيع احتمالي معين، ثم يجد استراتيجية الهدف من هذه البيانات التي تنحرف عن الاستراتيجية غير المثالية.

يتطلب اعتماد هذه الخطة استيفاء الشروط التالية: بافتراض أن π هي استراتيجية الهدف و μ هي استراتيجية السلوك، فإن شرط التعلم من μ إلى π هو أنه عندما π (a | s) > 0، يجب أن يتحقق µ (a | s) > 0.

خوارزمية التعلم Q

تتعلم خوارزمية التعلم Q كيفية اختيار الإجراء التالي استنادًا إلى المكافآت والعقوبات المتصورة، حيث يمثل Q دالة الجودة للسياسة π، والتي تقوم بربط كل زوج من الحالة-الإجراء (s، a) بالمكافأة المستقبلية المتوقعة الإجمالية بعد ملاحظة الحالة s وتحديد الإجراء a.

خوارزمية Q-Learning خالية من النماذج، مما يعني أنها لا تقوم بنمذجة المعرفة الديناميكية لـ MDP، ولكنها تقدر قيم Q للإجراءات المختلفة في كل حالة بشكل مباشر، ثم تختار الإجراء الذي يحتوي على أعلى قيمة Q في كل حالة والاستراتيجية المقابلة.

إذا تمكن الكمبيوتر من الوصول بشكل مستمر إلى جميع إجراءات الحالة، فسوف تتقارب خوارزمية التعلم Q إلى دالة Q المثلى.

مزايا استراتيجية مختلفة

يمكن التعلم بناءً على عينات تعليمية يقدمها البشر أو عينات موجهة يقدمها وكلاء آخرون؛
يمكن الاستفادة من الخبرة المكتسبة من الاستراتيجيات القديمة؛
من الممكن تعلم سياسة حتمية أثناء استخدام سياسة استكشافية؛
يمكنك استخدام استراتيجية واحدة لتجربة وتعلم استراتيجيات متعددة في نفس الوقت.

المصطلحات ذات الصلة: نفس الاستراتيجية، وظيفة الاستراتيجية

التعلم أثناء النشر

LWD هو إطار عمل للتعلم المعزز على مستوى الأسطول من وضع عدم الاتصال إلى وضع الاتصال، والذي يمكّن الروبوتات ذات الأغراض العامة من جمع الخبرة باستمرار وتحقيق التطور الذاتي للسياسات.

منذ شهر واحد

التعلم الموحد

نهج التعلم الآلي اللامركزي الذي يحتفظ ببيانات التدريب على جهاز محلي ويدرب نموذجًا عالميًا مشتركًا من خلال تجميع تحديثات النموذج المحسوبة محليًا فقط.

منذ 2 أشهر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

HyperAI

التاريخ

منذ 8 أعوام

تفكير استراتيجي مختلف

خوارزمية التعلم Q

مزايا استراتيجية مختلفة

يمكن التعلم بناءً على عينات تعليمية يقدمها البشر أو عينات موجهة يقدمها وكلاء آخرون؛
يمكن الاستفادة من الخبرة المكتسبة من الاستراتيجيات القديمة؛
من الممكن تعلم سياسة حتمية أثناء استخدام سياسة استكشافية؛
يمكنك استخدام استراتيجية واحدة لتجربة وتعلم استراتيجيات متعددة في نفس الوقت.

المصطلحات ذات الصلة: نفس الاستراتيجية، وظيفة الاستراتيجية

التعلم أثناء النشر

منذ شهر واحد

التعلم الموحد

منذ 2 أشهر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

تفكير استراتيجي مختلف

مزايا استراتيجية مختلفة

المصطلحات ذات الصلة: نفس الاستراتيجية، وظيفة الاستراتيجية

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

تفكير استراتيجي مختلف

مزايا استراتيجية مختلفة

المصطلحات ذات الصلة: نفس الاستراتيجية، وظيفة الاستراتيجية

ذات صلة ويكي

التعلم أثناء النشر

التعلم الموحد

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

تفكير استراتيجي مختلف

مزايا استراتيجية مختلفة

المصطلحات ذات الصلة: نفس الاستراتيجية، وظيفة الاستراتيجية

ذات صلة ويكي

التعلم أثناء النشر

التعلم الموحد

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

ذات صلة ويكي

التعلم أثناء النشر

التعلم الموحد

ذات صلة ويكي

التعلم أثناء النشر

التعلم الموحد

Command Palette

سياسة الإيقاف

تفكير استراتيجي مختلف

مزايا استراتيجية مختلفة

المصطلحات ذات الصلة: نفس الاستراتيجية، وظيفة الاستراتيجية

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

سياسة الإيقاف

تفكير استراتيجي مختلف

مزايا استراتيجية مختلفة

المصطلحات ذات الصلة: نفس الاستراتيجية، وظيفة الاستراتيجية

ذات صلة ويكي

التعلم أثناء النشر

التعلم الموحد

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

سياسة الإيقاف

تفكير استراتيجي مختلف

مزايا استراتيجية مختلفة

المصطلحات ذات الصلة: نفس الاستراتيجية، وظيفة الاستراتيجية

ذات صلة ويكي

التعلم أثناء النشر

التعلم الموحد

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

ذات صلة ويكي

التعلم أثناء النشر

التعلم الموحد

ذات صلة ويكي

التعلم أثناء النشر

التعلم الموحد