التعلم التقويمي مع التدفق الخفي

المعلومات الزمنية ضرورية لتعلم سياسات فعّالة باستخدام التعلم المعزز (RL). ومع ذلك، فإن الخوارزميات الحديثة المتطورة في مجال RL إما تفترض أن هذه المعلومات متوفرة كجزء من فضاء الحالة، أو عند التعلم من الصور، تستخدم الهرم البسيط المتمثل في تجميع الإطارات (frame-stacking) لالتقاط المعلومات الزمنية ضمنياً من خلال الملاحظات البصرية. يتعارض هذا الهرم مع النموذج السائد في هياكل تصنيف الفيديو، التي تعتمد على ترميزات صريحة للمعلومات الزمنية باستخدام أساليب مثل التدفق البصري (optical flow) والهياكل ذات التدفق المزدوج (two-stream architectures) لتحقيق أفضل الأداء. مستوحاة من أفضل هياكل تصنيف الفيديو، نقدم "تدفق المتجهات المخفية للتعلم المعزز" (Flow of Latents for Reinforcement Learning - Flare)، وهي معمارية شبكة لـ RL تقوم بترميز المعلومات الزمنية صريحة من خلال الفروقات بين المتجهات المخفية. نُظهر أن Flare (i) تعيد استعادة الأداء الأمثل في مهام RL القائمة على الحالة دون الحاجة إلى الوصول الصريح إلى سرعة الحالة، وذلك باستخدام فقط معلومات الموضع في الحالة، (ii) تحقق أفضل أداء ممكن على مهام التحكم المستمر الصعبة القائمة على الصور ضمن مجموعة اختبار DeepMind Control، ومنها: المشي برباعي الأرجل، القفز بالهوبير، دوران الإصبع الصعب، تذبذب البندول، وجري المشي، وهي النموذج الأكثر كفاءة من حيث العينات ضمن الخوارزميات بدون نموذج قائمة على الصور، وتتفوّق على أفضل نموذج سابق بدون نموذج بنسبة 1.9 مرة و1.5 مرة على التوالي في اختبارات 500 ألف و1 مليون خطوة، و(iv) عند دمجها مع خوارزمية Rainbow DQN، تتفوّق على هذه الخلفية القياسية على 5 من أصل 8 ألعاب Atari الصعبة في اختبار 100 مليون خطوة زمني.