HyperAIHyperAI

Command Palette

Search for a command to run...

مُحَوِّل القرار: التعلُّم المعزّز من خلال نمذجة التسلسل

Lili Chen Kevin Lu Aravind Rajeswaran Kimin Lee Aditya Grover Michael Laskin Pieter Abbeel Aravind Srinivas Igor Mordatch

الملخص

نقدّم إطارًا يُصوّر التعلّم القوي (RL) كمُشكلة نمذجة التسلسل. وهذا يسمح لنا باستلهام البساطة والقابلية للتوسع المميزة لبنية Transformer، فضلًا عن التطورات المرتبطة بنمذجة اللغة مثل GPT-x وBERT. وتحديدًا، نقدّم "مُحول القرار" (Decision Transformer)، وهي بنية تحوّل مسألة التعلّم القوي إلى مسألة نمذجة تسلسل شرطية. على عكس الطرق السابقة في التعلّم القوي التي تُطبّق دوال القيمة أو تحسب متجهات التدرج السياسي، يُخرِج مُحول القرار ببساطة الإجراءات المثلى من خلال الاستفادة من نموذج Transformer مع قناع سببي. وبما أن النموذج يُشَرَّط على العائد المرغوب (المكافأة)، والحالات والإجراءات السابقة، يمكنه توليد إجراءات مستقبلية تحقق العائد المطلوب. وعلى الرغم من بساطته، يُساوي أو يتفوّق مُحول القرار على أداء أحدث النماذج الحرة من النموذج في التعلّم القوي غير المُتَّصِل (model-free offline RL) في مهام Atari وOpenAI Gym ومهام Key-to-Door.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
مُحَوِّل القرار: التعلُّم المعزّز من خلال نمذجة التسلسل | مستندات | HyperAI