Command Palette
Search for a command to run...
مُحَوِّل القرار: التعلُّم المعزّز من خلال نمذجة التسلسل
مُحَوِّل القرار: التعلُّم المعزّز من خلال نمذجة التسلسل
Lili Chen Kevin Lu Aravind Rajeswaran Kimin Lee Aditya Grover Michael Laskin Pieter Abbeel Aravind Srinivas Igor Mordatch
الملخص
نقدّم إطارًا يُصوّر التعلّم القوي (RL) كمُشكلة نمذجة التسلسل. وهذا يسمح لنا باستلهام البساطة والقابلية للتوسع المميزة لبنية Transformer، فضلًا عن التطورات المرتبطة بنمذجة اللغة مثل GPT-x وBERT. وتحديدًا، نقدّم "مُحول القرار" (Decision Transformer)، وهي بنية تحوّل مسألة التعلّم القوي إلى مسألة نمذجة تسلسل شرطية. على عكس الطرق السابقة في التعلّم القوي التي تُطبّق دوال القيمة أو تحسب متجهات التدرج السياسي، يُخرِج مُحول القرار ببساطة الإجراءات المثلى من خلال الاستفادة من نموذج Transformer مع قناع سببي. وبما أن النموذج يُشَرَّط على العائد المرغوب (المكافأة)، والحالات والإجراءات السابقة، يمكنه توليد إجراءات مستقبلية تحقق العائد المطلوب. وعلى الرغم من بساطته، يُساوي أو يتفوّق مُحول القرار على أداء أحدث النماذج الحرة من النموذج في التعلّم القوي غير المُتَّصِل (model-free offline RL) في مهام Atari وOpenAI Gym ومهام Key-to-Door.