HyperAIHyperAI

Command Palette

Search for a command to run...

التعلم العميق المتعدد المهام باستخدام PopArt

Matteo Hessel; Hubert Soyer; Lasse Espeholt; Wojciech Czarnecki; Simon Schmitt; Hado van Hasselt

الملخص

حققت المجتمعات البحثية في مجال التعلم التعزيزي تقدماً كبيراً في تصميم خوارزميات قادرة على تجاوز الأداء البشري في مهام معينة. ومع ذلك، يتم تدريب هذه الخوارزميات بشكل أساسي على مهمة واحدة في كل مرة، حيث يتطلب كل مهمة جديدة تدريب نسخة جديدة من العميل (agent). هذا يعني أن خوارزمية التعلم عامة، ولكن كل حل ليس كذلك؛ فكل عميل يمكنه فقط حل المهمة التي تم تدريبه عليها. في هذا العمل، ندرس مشكلة تعلم إتقان أكثر من مهمة قرار متسلسلة واحدة في آن واحد. إحدى القضايا العامة في التعلم المتعدد للمهام هي أنه يجب العثور على توازن بين احتياجات المهام المتعددة التي تنافس على الموارد المحدودة لنظام تعلم واحد. يمكن للعديد من خوارزميات التعلم أن تتعرض للتشتت بسبب بعض المهام ضمن مجموعة المهام المراد حلها. قد تكون هذه المهام أكثر وضوحاً بالنسبة لعملية التعلم، مثلًا بسبب كثافة أو حجم الجوائز داخل المهمة. هذا يسبب للخوارزمية التركيز على تلك المهام البارزة على حساب العمومية. نقترح تحويل مساهمة كل مهمة بشكل آلي لتحديثات العميل (agent's updates)، بحيث يكون لكل مهمة تأثير مشابه على ديناميكيات التعلم. وقد أدى هذا إلى تحقيق أفضل الأداء في تعلم لعب جميع الألعاب ضمن مجموعة مكونة من 57 لعبة أتاري متنوعة. وبشكل مثير للإعجاب، استطاعت طريquetنا تعليم سياسة مدربة واحدة - باستخدام مجموعة واحدة من الأوزان - التي تتجاوز الأداء البشري المتوسط. حسب علم us، كانت هذه هي المرة الأولى التي يتفوق فيها عميل واحد على مستوى الأداء البشري في هذا المجال المتعدد للمهام. كما أظهرت نفس النهج أفضل الأداء على مجموعة مكونة من 30 مهمة في منصة التعلم التعزيزي ثلاثية الأبعاد DeepMind Lab (منصة مختبرات DeepMind).


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp