HyperAIHyperAI

Command Palette

Search for a command to run...

التعلم Q

Date

منذ 2 أعوام

Q-Learning عبارة عن خوارزمية تعلم تعزيزي خارج السياسة وخالية من النماذج والتي تعمل على إيجاد أفضل مسار للعمل بالنظر إلى الحالة الحالية للوكيل.اعتمادًا على مكان تواجد الوكيل في البيئة، فسوف يقرر الإجراء الذي يجب اتخاذه بعد ذلك. يشير "Q" إلى الوظيفة التي تحسبها الخوارزمية - المكافأة المتوقعة للإجراء المتخذ في حالة معينة.

الهدف من التعلم Q هو العثور على أفضل مسار للعمل بالنظر إلى الحالة الحالية. وللقيام بذلك، قد تقوم بإنشاء قواعدها الخاصة أو العمل خارج السياسات المقررة.وهذا يعني أنه لا توجد حاجة فعلية لأي سياسة، ومن هنا جاء اسم "خارج السياسة".بالنسبة لأي عملية اتخاذ قرار ماركوف محدودة، يجد التعلم Q سياسة مثالية تعمل على تعظيم القيمة المتوقعة للمكافأة الإجمالية في أي خطوة متتالية، بدءًا من الحالة الحالية. يمكن لتعلم Q تحديد أفضل سياسة لاختيار الإجراء لأي عملية قرار ماركوف محدودة معينة، مع الأخذ في الاعتبار وقت الاستكشاف غير المحدود وسياسة عشوائية جزئيًا.

ومن أمثلة التعلم الآلي نظام التوصية بالإعلانات. في نظام التوصية بالإعلانات العادي، تعتمد الإعلانات التي يحصل عليها المشاهد على مشترياته السابقة أو مواقع الويب التي ربما قام بزيارتها. إذا اشترى المشاهد جهاز تلفزيون، فسوف يحصل على توصيات بشأن العلامات التجارية المختلفة للتلفزيون. 

مصطلحات مهمة في Q-Learning

  1. الحالات: تمثل الحالات S (الحالات) الموضع الحالي للوكيل في البيئة. 
  2. الفعل: الفعل هو الخطوة التي يتخذها الوكيل عندما يكون في حالة معينة.
  3. المكافأة: لكل إجراء، يتلقى العميل مكافأة إيجابية أو سلبية.
  4. القصة: عندما ينتهي الأمر بالوكيل في حالة نهائية ولا يستطيع اتخاذ إجراءات جديدة.
  5. قيمة Q: تُستخدم لتحديد مدى جودة الإجراء A عند تنفيذه في حالة معينة S. ويُعبر عنها بـ Q (A, S).
  6. الفرق الزمني: صيغة لإيجاد قيمة Q باستخدام الحالة والفعل الحاليين وقيم الحالة والفعل السابقين.

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
التعلم Q | Wiki | HyperAI