شبكات بعمق 1000 طبقة للتعلم الانتقائي الذاتي: يمكن أن يمكّن التوسع في العمق من إمكانات جديدة في تحقيق الأهداف
Kevin Wang Ishaan Javali Michał Bortkiewicz Tomasz Trzcinski Benjamin Eysenbach

الملخص
لقد ساهم التوسع في التعلم ذاتي التوجيه في تحقيق تقدم كبير في مجالات اللغة والرؤية الحاسوبية، غير أن تقدمًا مماثلًا ظل متأخرًا في مجال التعلم التعلُّمي التكراري (RL). في هذا البحث، نستعرض المكونات الأساسية لبناء نماذج تعلُّم تعلُّمي تكراري ذاتي التوجيه، والتي تُمكّن من تحسين كبير في قابلية التوسع، حيث يُعد عمق الشبكة عاملًا حاسمًا. في حين اعتمدت معظم الدراسات الحديثة في مجال التعلم التعلُّمي التكراري على هياكل شبه سطحية (تتراوح بين 2 إلى 5 طبقات)، نُظهر أن زيادة العمق إلى ما يصل إلى 1024 طبقة يمكن أن تُحدث تحسينًا ملحوظًا في الأداء. تُجرى تجاربنا في بيئة مُعَلَّمَة دون توجيه (Unsupervised Goal-Conditioned)، حيث لا تُقدَّم أي توضيحات أو مكافآت، مما يُجبر الوكيل على الاستكشاف من الصفر، وتعلم كيفية تعظيم احتمالية الوصول إلى الأهداف المطلوبة. عند تقييم الأداء على مهام محاكاة للحركة والتحريك، يُظهر نهجنا تحسنًا في الأداء بنسبة تتراوح بين 2 إلى 50 مرة مقارنةً بالخوارزمية التكرارية ذاتية التوجيه القائمة على التمييز، ويتفوق على جميع النماذج الأخرى المُعتمدة على الأهداف. كما أن زيادة عمق النموذج لا ترفع فقط من معدلات النجاح، بل تُحدث أيضًا تغييرات نوعية في السلوك الذي يتعلمه النظام.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.