مُحَوِّل القرار: التعلُّم المعزّز من خلال نمذجة التسلسل

نقدّم إطارًا يُصوّر التعلّم القوي (RL) كمُشكلة نمذجة التسلسل. وهذا يسمح لنا باستلهام البساطة والقابلية للتوسع المميزة لبنية Transformer، فضلًا عن التطورات المرتبطة بنمذجة اللغة مثل GPT-x وBERT. وتحديدًا، نقدّم "مُحول القرار" (Decision Transformer)، وهي بنية تحوّل مسألة التعلّم القوي إلى مسألة نمذجة تسلسل شرطية. على عكس الطرق السابقة في التعلّم القوي التي تُطبّق دوال القيمة أو تحسب متجهات التدرج السياسي، يُخرِج مُحول القرار ببساطة الإجراءات المثلى من خلال الاستفادة من نموذج Transformer مع قناع سببي. وبما أن النموذج يُشَرَّط على العائد المرغوب (المكافأة)، والحالات والإجراءات السابقة، يمكنه توليد إجراءات مستقبلية تحقق العائد المطلوب. وعلى الرغم من بساطته، يُساوي أو يتفوّق مُحول القرار على أداء أحدث النماذج الحرة من النموذج في التعلّم القوي غير المُتَّصِل (model-free offline RL) في مهام Atari وOpenAI Gym ومهام Key-to-Door.