التحكم على مستوى الإنسان من خلال التعلم التقويمي العميق
توفر نظرية التعلم بالتعزيز حسابًا نموذجيًا، متأصلة بعمق في المنظورات النفسية والعلمية العصبية المتعلقة بسلوك الكائنات الحية، لكيفية قدرة الوكالات على تحسين التحكم في بيئتها. ومع ذلك، لكي تُستخدم نظرية التعلم بالتعزيز بنجاح في سياقات تقترب من تعقيد العالم الحقيقي، تواجه الوكالات مهمة صعبة: فهي يجب أن تستخلص تمثيلات فعالة للبيئة من المدخلات الحسية عالية الأبعاد، ثم تستخدم هذه التمثيلات لتمديد الخبرات السابقة إلى حالات جديدة. ومن الملاحظ بشكل استثنائي أن البشر والكائنات الحية الأخرى تبدو قادرة على حل هذه المشكلة من خلال مزيج متوازن بين التعلم بالتعزيز ونظم معالجة حسية هرمية، حيث تُثبت البيانات العصبية الغنية توازناً ملحوظًا بين الإشارات الفسيولوجية القصيرة المدى التي تُصدرها الخلايا العصبية الدوبامينية والخوارزميات الخاصة بتعلم التفاضل الزمني. وعلى الرغم من النجاحات التي حققتها وكالات التعلم بالتعزيز في مجموعة متنوعة من المجالات، ظلت قابليتها للتطبيق محدودة سابقًا إلى المجالات التي يمكن فيها تصميم الميزات المفيدة يدويًا، أو إلى المجالات التي تتميز بمساحات حالة منخفضة الأبعاد ومرئية بالكامل. في هذا العمل، نستخدم التطورات الحديثة في تدريب الشبكات العصبية العميقة لتطوير وكالة اصطناعية جديدة، تُعرف باسم الشبكة العصبية العميقة Q (Deep Q-Network)، التي يمكنها تعلم سياسات ناجحة مباشرة من المدخلات الحسية عالية الأبعاد باستخدام تعلم التفعيل من الطرف إلى الطرف (end-to-end reinforcement learning). وقد تم اختبار هذه الوكالة في مجال صعب يمثل ألعاب Atari 2600 الكلاسيكية. ونُظهر أن الوكالة التي تعتمد على الشبكة العصبية العميقة Q، والتي تتلقى فقط صور الشاشة ونتيجة اللعبة كمدخلات، تمكنت من تجاوز أداء جميع الخوارزميات السابقة وتحقيق مستوى يعادل مستوى مُختبر ألعاب بشري محترف عبر مجموعة من 49 لعبة، باستخدام نفس الخوارزمية وبنية الشبكة والمعالم الفائقة (hyperparameters). يُعد هذا العمل خطوة جسرية بين المدخلات الحسية عالية الأبعاد والإجراءات، مما يؤدي إلى أول وكالة اصطناعية قادرة على تعلم التفوق في مجموعة متنوعة من المهام الصعبة.