لعب أتاري بستة نuerons 请注意,"neurons" 在阿拉伯语中通常写作 "العصبونات"。因此,更准确的翻译应该是: لعب أتاري بستة عصبونات

التعلم العميق بالتعزيز، عند تطبيقه على مشاكل تعتمد على الرؤية مثل ألعاب آتاري، يقوم بربط البكسلات مباشرة بالأفعال؛ داخليًا، يتحمل الشبكة العصبية العميقة مسؤولية استخراج المعلومات المفيدة واتخاذ القرارات بناءً عليها. من خلال فصل معالجة الصور عن اتخاذ القرار، يمكن فهم تعقيد كل مهمة بشكل أفضل، بالإضافة إلى إمكانية العثور على تمثيلات سياسة أصغر تكون أسهل للبشر في الفهم وقد تعمم بشكل أفضل. لتحقيق هذا الهدف، نقترح طريقة جديدة لتعلم السياسات والتمثيلات الحالة المضغوطة بشكل منفصل ولكن متزامن لتقريب السياسة في التعلم بالتعزيز. يتم إنشاء التمثيلات الحالة بواسطة مشفّر يستند إلى خوارزميتين جديدتين: زيادة حجم القاموس في الترميز الكمي للمسارح (Increasing Dictionary Vector Quantization) يجعل المشفّر قادرًا على زيادة حجم قاموسه بمرور الوقت للتعامل مع المشاهدات الجديدة التي تظهر في سياق التعلم عبر الإنترنت بدون نهاية؛ الترميز النادر المباشر (Direct Residuals Sparse Coding) يقوم بترميز المشاهدات دون التركيز على تقليل خطأ إعادة الإنشاء، بل يهدف إلى تحقيق أعلى درجة من تضمين المعلومات. يختار المشفّر المشاهدات عبر الإنترنت بشكل مستقل للتدريب عليها بهدف تعظيم ندرة الكود. مع زيادة حجم القاموس، ينتج المشفّر مدخلات أكبر للمشروع العصبي: وهذا ما يتم التعامل معه باستخدام نوع من خوارزمية الاستراتيجيات التطورية الطبيعية الأسيّة (Exponential Natural Evolution Strategies) التي تقوم بتكييف بعد توزيعها الاحتمالي أثناء التشغيل. نختبر نظامنا على مجموعة مختارة من ألعاب آتاري باستخدام شبكات عصبية صغيرة تتراوح بين 6 و18 عصبونًا فقط (حسب تحكم اللعبة). لا تزال هذه الشبكات قادرة على تحقيق نتائج مكافئة---وفي بعض الأحيان أفضل---من التقنيات الرائدة التي تستعمل شبكة عصبية أكبر بمقدار مرتبة أو مرتيْن من حيث عدد العصبونات.