HyperAIHyperAI
منذ 11 أيام

مُحَوِّل القرار: التعلُّم المعزّز من خلال نمذجة التسلسل

Lili Chen, Kevin Lu, Aravind Rajeswaran, Kimin Lee, Aditya Grover, Michael Laskin, Pieter Abbeel, Aravind Srinivas, Igor Mordatch
مُحَوِّل القرار: التعلُّم المعزّز من خلال نمذجة التسلسل
الملخص

نقدّم إطارًا يُصوّر التعلّم القوي (RL) كمُشكلة نمذجة التسلسل. وهذا يسمح لنا باستلهام البساطة والقابلية للتوسع المميزة لبنية Transformer، فضلًا عن التطورات المرتبطة بنمذجة اللغة مثل GPT-x وBERT. وتحديدًا، نقدّم "مُحول القرار" (Decision Transformer)، وهي بنية تحوّل مسألة التعلّم القوي إلى مسألة نمذجة تسلسل شرطية. على عكس الطرق السابقة في التعلّم القوي التي تُطبّق دوال القيمة أو تحسب متجهات التدرج السياسي، يُخرِج مُحول القرار ببساطة الإجراءات المثلى من خلال الاستفادة من نموذج Transformer مع قناع سببي. وبما أن النموذج يُشَرَّط على العائد المرغوب (المكافأة)، والحالات والإجراءات السابقة، يمكنه توليد إجراءات مستقبلية تحقق العائد المطلوب. وعلى الرغم من بساطته، يُساوي أو يتفوّق مُحول القرار على أداء أحدث النماذج الحرة من النموذج في التعلّم القوي غير المُتَّصِل (model-free offline RL) في مهام Atari وOpenAI Gym ومهام Key-to-Door.

مُحَوِّل القرار: التعلُّم المعزّز من خلال نمذجة التسلسل | أحدث الأوراق البحثية | HyperAI