HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 9 أيام

تدفق SAC: تعلم التحكم المُعزَّز الفعّال بالعينة لسياسات القنوات القائمة على التدفق من خلال النمذجة التسلسلية مع إعادة تعيين السرعة

Yixian Zhang Shu'ang Yu Tonghe Zhang Mo Guang Haojia Hui Kaiwen Long Yu Wang Chao Yu Wenbo Ding

تدفق SAC: تعلم التحكم المُعزَّز الفعّال بالعينة لسياسات القنوات القائمة على التدفق من خلال النمذجة التسلسلية مع إعادة تعيين السرعة

الملخص

يُعدّ تدريب سياسات تعبرية تعتمد على النماذج التدفقية باستخدام التعلم القائم على السياسة غير المُتَبَعَة (off-policy) أمرًا معروفًا بكونه غير مستقر بشكل كبير، ناتجًا عن مشاكل في التدرجات خلال عملية عينة الإجراءات متعددة المراحل. نُحلّل هذه عدم الاستقرار ونُشير إلى ارتباط جوهري: حيث يُعدّ تدفق التدفق (flow rollout) مكافئًا جبرياً لحساب تكراري تنازلي (residual recurrent computation)، مما يجعله عرضة لنفس مشاكل التدرجات المتناقصة أو المتفجرة التي تؤثر على الشبكات العصبية التكرارية (RNNs). وللتغلب على هذه المشكلة، نُعاد صياغة شبكة السرعة (velocity network) باستخدام مبادئ من النماذج последوية الحديثة، مما يؤدي إلى اقتراح معماريتين مستقرتين: "فْلو-ج" (Flow-G)، التي تُدمج سرعة مُتحكمَة (gated velocity)، و"فْلو-ت" (Flow-T)، التي تستخدم سرعة مُفكَّكة (decoded velocity). ثم نطوّر خوارزمية عملية تعتمد على SAC (Soft Actor-Critic)، وتمكّن من التدريب المباشر من الطرف إلى الطرف (end-to-end) من خلال استخدام تدفق مُضاعف بعوامل ضجيج (noise-augmented rollout). ويُمكن لنهجنا دعم التعلم من الصفر (from-scratch) والتعلم من البيانات المُخزّنة إلى التعلم المباشر (offline-to-online)، ويحقق أداءً يُعدّ من الأفضل على المستويات الحالية في معايير التحكم المستمر والمهام المتعلقة بالتحكم الروبوتي، مع التخلص من الحاجة إلى حلول تقليدية مثل تجميع السياسات (policy distillation) أو استخدام أهداف بديلة (surrogate objectives).

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
تدفق SAC: تعلم التحكم المُعزَّز الفعّال بالعينة لسياسات القنوات القائمة على التدفق من خلال النمذجة التسلسلية مع إعادة تعيين السرعة | الأوراق البحثية | HyperAI