HyperAIHyperAI
منذ 2 أشهر

Soft Actor-Critic: التعلم العميق للتعزيز الأقصى للانتروبي مع ممثل عشوائي خارج السياسة

Tuomas Haarnoja; Aurick Zhou; Pieter Abbeel; Sergey Levine
Soft Actor-Critic: التعلم العميق للتعزيز الأقصى للانتروبي مع ممثل عشوائي خارج السياسة
الملخص

تم إثبات خوارزميات التعلم العميق التعزيزي بدون نموذج (RL) في مجموعة متنوعة من المهام الصعبة المتعلقة بالقرارات والتحكم. ومع ذلك، تعاني هذه الطرق عادةً من تحديين رئيسيين: تعقيد العينة المرتفع للغاية وخواص التقارب الهشة، مما يتطلب ضبطًا دقيقًا للمراميز. يحد كلا هذين التحديين بشدة من قابلية تطبيق مثل هذه الطرق على المجالات المعقدة في العالم الحقيقي. في هذا البحث، نقترح خوارزمية soft actor-critic، وهي خوارزمية تعلم عميق تعزيزي actor-critic بدون سياسة تستند إلى إطار التعلم التعزيزي الأقصى للانتروبيا. في هذا الإطار، يسعى الفاعل (actor) إلى زيادة المكافأة المتوقعة بينما يزيد أيضًا الانتروبيا. بعبارة أخرى، النجاح في المهمة مع القيام بالأعمال بشكل عشوائي قدر الإمكان. تم صياغة طرق التعلم العميق التعزيزي السابقة المستندة إلى هذا الإطار كخوارزميات Q-learning. من خلال الجمع بين تحديثات بدون سياسة وصيغة actor-critic العشوائية المستقرة، تحقق طريقتنا أداءً متميزًا على مجموعة متنوعة من مهام التحكم المستمرة المعيارية، وتتفوق على الأساليب السابقة التي تعمل حسب السياسة وبعيدًا عنها. بالإضافة إلى ذلك، نوضح أن طريقتنا مستقرة جدًا مقارنة بخوارزميات أخرى بدون سياسة، حيث تحقق أداءً مشابهًا للغاية عبر بذور عشوائية مختلفة.