تَسْلِيمُ ق-التعلم: اكتساب المنهج الثاني الأساسي في التعلم التفاضلي الزمني يُظهر روبوت يتعلم خوارزمية Q-Learning، المصدر: تم إنشاؤه بواسطة ChatGPT ليس عضوًا في Medium بعد؟ لا بأس، يمكنك قراءة المقالة هنا! في المرة السابقة، تعرفنا على مفهوم التعلم التفاضلي الزمني (Temporal Difference Learning) واستعرضنا أول منهجية له: SARSA (النهج المُطبَّق). هذه المرة، سنغوص في منهجية التعلم التفاضلي الزمني من نوع "غير المُطبَّق" (Off-Policy): Q-Learning! إذا لم تكن قد قرأت المقال السابق، فننصحك بالعودة إليه أولاً: التعلم التفاضلي الزمني: أفضل حل في التعلم بالتحفيز. Q-Learning: منهجية التحكم في التعلم التفاضلي الزمني غير المُطبَّق في المرة الماضية، تعرفنا على SARSA، وهي طريقة مُطبَّقة (On-Policy) تتبع قاعدة التحديث التالية: يمكننا تصور هذه الصيغة على أنها استخدام متوسط متحرك موزون (EMA) بدلًا من المتوسط التجريبي. ويظهر هذا بوضوح في الصيغة: بالتالي، يمكن القول إن SARSA هي في جوهرها مزيج من صيغة EMA وصيغة بلمن. أما Q-Learning، فهي تُعدّ الطريقة الثانية الأساسية في التعلم التفاضلي الزمني، وتتميز بكونها غير مُطبَّقة، أي أنها تتعلم عن طريق سياسة مختلفة عن السياسة التي تُستخدم في التصرف (أي تتعلم أفضل سياسة بينما تسلك سياسة أخرى). يُعدّ هذا التمييز جوهريًا، إذ يسمح لـ Q-Learning بالاستفادة من البيانات التي تُجمع أثناء تجربة سياسة عشوائية أو مُختلفة، دون الحاجة إلى التوقف أو إعادة التدريب. ومن خلال هذا، تصبح Q-Learning أكثر مرونة وفعالية في سيناريوهات التعلم حيث يصعب تطبيق سياسة مثالية أثناء التعلم. في المقال القادم، سنستعرض كيف تُطبَّق Q-Learning عمليًا، ونُحلّل فروقاتها عن SARSA، ونُظهر كيف تُستخدم في تطبيقات حقيقية مثل الروبوتات والألعاب.
في المقال السابق، تناولنا مفهوم التعلم التفاضلي الزمني (Temporal Difference Learning) والطريقة الأولى فيه: سارسا (SARSA)، وهي طريقة تعتمد على السياسة الحالية (On-Policy). والآن، ننتقل إلى الطريقة الثانية والأكثر تأثيرًا في هذا المجال: Q-ليرنينغ (Q-Learning)، وهي طريقة تابعة للسياسة الخارجية (Off-Policy)، وتُعد من أبرز أدوات التعلم بالتفصيل في مجال الذكاء الاصطناعي. ما يميز Q-ليرنينغ عن سارسا هو قدرتها على تعلم أفضل سياسة ممكنة، حتى لو كانت تُستخدم سياسة مختلفة أثناء التعلم. ببساطة، يمكنها التعلم من تجارب غير مثالية، مما يجعلها أكثر مرونة وفعالية في المواقف الواقعية. الصيغة الأساسية لتحديث Q-ليرنينغ تُبنى على معادلة بيلمان (Bellman Equation) المثالية، ولكنها تُطبَّق بطريقة تُسمح بالاستفادة من أفضل تقييم ممكن للقيمة المستقبلية، بغض النظر عن الخطوة التي تم اتخاذها فعليًا. صيغة التحديث هي: [ Q(s, a) \leftarrow Q(s, a) + \alpha \left[ r + \gamma \max_{a'} Q(s', a') - Q(s, a) \right] ] في هذه الصيغة، ( \alpha ) هو معدل التعلم، ( r ) هو المكافأة الفورية، ( \gamma ) هو معامل التخفيض الزمني، و ( \max_{a'} Q(s', a') ) يُمثل أعلى قيمة مُحتملة للحالة التالية ( s' ) حسب أي فعل ممكن. هذا الجزء هو ما يجعل Q-ليرنينغ "خارج السياسة": لأنه لا يعتمد على فعل تم اتخاذه فعليًا، بل على أفضل فعل ممكن. بالتالي، يمكن اعتبار Q-ليرنينغ كمزيج بين معادلة بيلمان المثالية وتقنيات التقدير التفاضلي الزمني، حيث تُحدّث القيم التقديرية تدريجيًا بناءً على الفروق بين التقديرات الحالية والمقابلات المستقبلية المتوقعة. هذه الطريقة تضمن تقاربًا أسرع نحو القيمة المثلى، خصوصًا في البيئات المعقدة. من المهم التمييز بين Q-ليرنينغ وسارسا من حيث الأداء: بينما سارسا تتعلم من التجارب الفعلية التي تُستخدم في التصرف (أي من السياسة نفسها)، فإن Q-ليرنينغ يمكنها تعلم سياسة مثالية حتى عند استخدام سياسة تجريبية (مثل سياسة عشوائية أو مثيرة للتجريب). هذا يفتح الباب أمام استخدام استراتيجيات تجريبية فعّالة (مثل ( \epsilon )-جشع) دون التضحية بالتعلم الأمثل. على الرغم من فعاليتها، لا تخلو Q-ليرنينغ من التحديات. من أبرزها: التقدير المفرط للقيم (overestimation)، حيث قد تُقدّر القيم المستقبلية بشكل مبالغ فيه، مما يؤدي إلى تعلم غير دقيق. لكن تم تطوير حلول مثل Double Q-Learning وDQN (Deep Q-Network) لمعالجة هذه المشكلة، خاصة في التطبيقات المعتمدة على الشبكات العصبية العميقة. باختصار، Q-ليرنينغ تمثل حجر الزاوية في التعلم الآلي التوليدي، وتمكّن الروبوتات والأنظمة الذكية من تعلّم سلوك مثالي في بيئات غير محددة، حتى مع تجارب غير مثالية. إنها ليست مجرد أداة حسابية، بل نموذج فكري قوي يُمكّن الأنظمة من التعلم من تجاربها، وتحقيق الأهداف بكفاءة عالية، مما يجعلها من أكثر الطرق تأثيرًا في مجال الذكاء الاصطناعي الحديث.
