HyperAIHyperAI

Command Palette

Search for a command to run...

πextttRLπ_ exttt{RL}πextttRL: التدريب الدقيق عبر الإنترنت للتعلم بالتعزيز لنموذج الرؤية واللغة والعمل القائم على التدفق

الملخص

تمكّن نماذج الرؤية واللغة والفعل (VLA) الروبوتات من فهم المهام المعقدة وأداؤها بناءً على مدخلات متعددة الوسائط. وعلى الرغم من أن الدراسات الحديثة تستكشف استخدام التعلم بالتعزيز (RL) لآليّة جمع البيانات المُرهقة في تحسين التدريب المُراقب على نطاق واسع (SFT)، إلا أن تطبيق التعلم بالتعزيز على نطاق واسع على النماذج القائمة على التدفق (flow-based VLAs) – مثل π0π_0π0 وπ0.5π_{0.5}π0.5 – يظل تحديًا كبيرًا، نظرًا لصعوبة حساب احتمالات الإجراء (action log-likelihood) الناتجة عن عملية إزالة الضوضاء التكرارية.لحل هذا التحدي، نقدّم πRLπ_{\text{RL}}πRL، وهي إطار مفتوح المصدر مُصمم لتدريب النماذج القائمة على التدفق من نوع VLA في بيئة محاكاة متوازية. يُطبّق πRLπ_{\text{RL}}πRL خوارزميتين للتعلم بالتعزيز: (1) {Flow-Noise}، التي تُمثّل عملية إزالة الضوضاء كنموذج قرار ماركوفي متقطع الزمن (MDP) مع شبكة ضوضاء قابلة للتعلم، مما يسمح بحساب دقيق لاحتمالات الإجراء. (2) {Flow-SDE}، التي تدمج عملية إزالة الضوضاء مع تفاعل الوكيل مع البيئة، وتصوّر نموذجًا ثنائي الطبقات يعتمد على تحويل المعادلات التفاضلية العادية (ODE) إلى معادلات تفاضلية عشوائية (SDE) لتمكين استكشاف فعّال في التعلم بالتعزيز.قمنا بتقييم πRLπ_{\text{RL}}πRL على معايير LIBERO وManiSkill. على معيار LIBERO، زادت πRLπ_{\text{RL}}πRL من أداء نماذج SFT القليلة التدريب (π0π_0π0 وπ0.5π_{0.5}π0.5) من 57.6% إلى 97.6%، ومن 77.1% إلى 98.3% على التوالي. أما في معيار ManiSkill، فقد تم تدريب πRLπ_{\text{RL}}πRL في 320 بيئة محاكاة متوازية، ما أدى إلى تحسين أداء π0π_0π0 من 41.6% إلى 85.7%، وπ0.5π_{0.5}π0.5 من 40.0% إلى 84.8% على مدار 4352 مهمة رفع ووضع، مما يُظهر قدرة التعلم بالتعزيز متعدد المهام القابلة للتوسع في بيئة محاكاة متنوعة.بشكل عام، تحقّق πRLπ_{\text{RL}}πRL تحسينات كبيرة في الأداء، وتميّزت بقدرة تعميم أقوى مقارنة بنماذج SFT، مما يؤكد فعالية التعلم بالتعزيز المباشر (online RL) في تدريب النماذج القائمة على التدفق من نوع VLA.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
$π_ exttt{RL}$: التدريب الدقيق عبر الإنترنت للتعلم بالتعزيز لنموذج الرؤية واللغة والعمل القائم على التدفق | مستندات | HyperAI