HyperAIHyperAI

Command Palette

Search for a command to run...

شبكات بعمق 1000 طبقة للتعلم الانتقائي الذاتي: يمكن أن يمكّن التوسع في العمق من إمكانات جديدة في تحقيق الأهداف

Kevin Wang Ishaan Javali Michał Bortkiewicz Tomasz Trzcinski Benjamin Eysenbach

Abstract

لقد ساهم التوسع في التعلم ذاتي التوجيه في تحقيق تقدم كبير في مجالات اللغة والرؤية الحاسوبية، غير أن تقدمًا مماثلًا ظل متأخرًا في مجال التعلم التعلُّمي التكراري (RL). في هذا البحث، نستعرض المكونات الأساسية لبناء نماذج تعلُّم تعلُّمي تكراري ذاتي التوجيه، والتي تُمكّن من تحسين كبير في قابلية التوسع، حيث يُعد عمق الشبكة عاملًا حاسمًا. في حين اعتمدت معظم الدراسات الحديثة في مجال التعلم التعلُّمي التكراري على هياكل شبه سطحية (تتراوح بين 2 إلى 5 طبقات)، نُظهر أن زيادة العمق إلى ما يصل إلى 1024 طبقة يمكن أن تُحدث تحسينًا ملحوظًا في الأداء. تُجرى تجاربنا في بيئة مُعَلَّمَة دون توجيه (Unsupervised Goal-Conditioned)، حيث لا تُقدَّم أي توضيحات أو مكافآت، مما يُجبر الوكيل على الاستكشاف من الصفر، وتعلم كيفية تعظيم احتمالية الوصول إلى الأهداف المطلوبة. عند تقييم الأداء على مهام محاكاة للحركة والتحريك، يُظهر نهجنا تحسنًا في الأداء بنسبة تتراوح بين 2 إلى 50 مرة مقارنةً بالخوارزمية التكرارية ذاتية التوجيه القائمة على التمييز، ويتفوق على جميع النماذج الأخرى المُعتمدة على الأهداف. كما أن زيادة عمق النموذج لا ترفع فقط من معدلات النجاح، بل تُحدث أيضًا تغييرات نوعية في السلوك الذي يتعلمه النظام.


Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
شبكات بعمق 1000 طبقة للتعلم الانتقائي الذاتي: يمكن أن يمكّن التوسع في العمق من إمكانات جديدة في تحقيق الأهداف | Papers | HyperAI