HyperAIHyperAI
منذ 13 أيام

CURL: تمثيلات غير مراقبة تباينية للتعلم التعلمي

Aravind Srinivas, Michael Laskin, Pieter Abbeel
CURL: تمثيلات غير مراقبة تباينية للتعلم التعلمي
الملخص

نقدم نموذج CURL: تمثيلات غير مراقبة تناقضية للتعلم التكاملي. يقوم CURL باستخراج ميزات عالية المستوى من الصور الخام باستخدام التعلم التناقضي، ثم يُطبّق التحكم غير المُعتمد على نموذج (off-policy) على الميزات المستخرجة. وقد تفوق CURL على الطرق القائمة على الصور السابقة، سواء كانت قائمة على النماذج أو غير قائمة على النماذج، في المهام المعقدة ضمن مجموعة DeepMind Control Suite وألعاب Atari، محققاً مكاسب أداء قدرها 1.9 مرة و1.2 مرة على التوالي عند نقاط المقارنة المتمثلة في 100 ألف خطوة بيئية وخطوات تفاعل. وفي مجموعة DeepMind Control Suite، أصبح CURL أول خوارزمية تعتمد على الصور تقترب من كفاءة الاستخدام العيني (sample-efficiency) للطرق التي تعتمد على ميزات الحالة (state-based features). وتم إتاحة الكود المصدر للنموذج عبر الرابط التالي: https://github.com/MishaLaskin/curl.