التعلم Q
Q-Learning عبارة عن خوارزمية تعلم تعزيزي خارج السياسة وخالية من النماذج والتي تعمل على إيجاد أفضل مسار للعمل بالنظر إلى الحالة الحالية للوكيل.اعتمادًا على مكان تواجد الوكيل في البيئة، فسوف يقرر الإجراء الذي يجب اتخاذه بعد ذلك. يشير "Q" إلى الوظيفة التي تحسبها الخوارزمية - المكافأة المتوقعة للإجراء المتخذ في حالة معينة.
الهدف من التعلم Q هو العثور على أفضل مسار للعمل بالنظر إلى الحالة الحالية. وللقيام بذلك، قد تقوم بإنشاء قواعدها الخاصة أو العمل خارج السياسات المقررة.وهذا يعني أنه لا توجد حاجة فعلية لأي سياسة، ومن هنا جاء اسم "خارج السياسة".بالنسبة لأي عملية اتخاذ قرار ماركوف محدودة، يجد التعلم Q سياسة مثالية تعمل على تعظيم القيمة المتوقعة للمكافأة الإجمالية في أي خطوة متتالية، بدءًا من الحالة الحالية. يمكن لتعلم Q تحديد أفضل سياسة لاختيار الإجراء لأي عملية قرار ماركوف محدودة معينة، مع الأخذ في الاعتبار وقت الاستكشاف غير المحدود وسياسة عشوائية جزئيًا.
ومن أمثلة التعلم الآلي نظام التوصية بالإعلانات. في نظام التوصية بالإعلانات العادي، تعتمد الإعلانات التي يحصل عليها المشاهد على مشترياته السابقة أو مواقع الويب التي ربما قام بزيارتها. إذا اشترى المشاهد جهاز تلفزيون، فسوف يحصل على توصيات بشأن العلامات التجارية المختلفة للتلفزيون.
مصطلحات مهمة في Q-Learning
- الحالات: تمثل الحالات S (الحالات) الموضع الحالي للوكيل في البيئة.
- الفعل: الفعل هو الخطوة التي يتخذها الوكيل عندما يكون في حالة معينة.
- المكافأة: لكل إجراء، يتلقى العميل مكافأة إيجابية أو سلبية.
- القصة: عندما ينتهي الأمر بالوكيل في حالة نهائية ولا يستطيع اتخاذ إجراءات جديدة.
- قيمة Q: تُستخدم لتحديد مدى جودة الإجراء A عند تنفيذه في حالة معينة S. ويُعبر عنها بـ Q (A, S).
- الفرق الزمني: صيغة لإيجاد قيمة Q باستخدام الحالة والفعل الحاليين وقيم الحالة والفعل السابقين.