Command Palette
Search for a command to run...
$π_ exttt{RL}$: التدريب الدقيق عبر الإنترنت للتعلم بالتعزيز لنموذج الرؤية واللغة والعمل القائم على التدفق

الملخص
تمكّن نماذج الرؤية واللغة والفعل (VLA) الروبوتات من فهم المهام المعقدة وأداؤها بناءً على مدخلات متعددة الوسائط. وعلى الرغم من أن الدراسات الحديثة تستكشف استخدام التعلم بالتعزيز (RL) لآليّة جمع البيانات المُرهقة في تحسين التدريب المُراقب على نطاق واسع (SFT)، إلا أن تطبيق التعلم بالتعزيز على نطاق واسع على النماذج القائمة على التدفق (flow-based VLAs) – مثل $π_0$ و$π_{0.5}$ – يظل تحديًا كبيرًا، نظرًا لصعوبة حساب احتمالات الإجراء (action log-likelihood) الناتجة عن عملية إزالة الضوضاء التكرارية.لحل هذا التحدي، نقدّم $π_{\text{RL}}$، وهي إطار مفتوح المصدر مُصمم لتدريب النماذج القائمة على التدفق من نوع VLA في بيئة محاكاة متوازية. يُطبّق $π_{\text{RL}}$ خوارزميتين للتعلم بالتعزيز: (1) {Flow-Noise}، التي تُمثّل عملية إزالة الضوضاء كنموذج قرار ماركوفي متقطع الزمن (MDP) مع شبكة ضوضاء قابلة للتعلم، مما يسمح بحساب دقيق لاحتمالات الإجراء. (2) {Flow-SDE}، التي تدمج عملية إزالة الضوضاء مع تفاعل الوكيل مع البيئة، وتصوّر نموذجًا ثنائي الطبقات يعتمد على تحويل المعادلات التفاضلية العادية (ODE) إلى معادلات تفاضلية عشوائية (SDE) لتمكين استكشاف فعّال في التعلم بالتعزيز.قمنا بتقييم $π_{\text{RL}}$ على معايير LIBERO وManiSkill. على معيار LIBERO، زادت $π_{\text{RL}}$ من أداء نماذج SFT القليلة التدريب ($π_0$ و$π_{0.5}$) من 57.6% إلى 97.6%، ومن 77.1% إلى 98.3% على التوالي. أما في معيار ManiSkill، فقد تم تدريب $π_{\text{RL}}$ في 320 بيئة محاكاة متوازية، ما أدى إلى تحسين أداء $π_0$ من 41.6% إلى 85.7%، و$π_{0.5}$ من 40.0% إلى 84.8% على مدار 4352 مهمة رفع ووضع، مما يُظهر قدرة التعلم بالتعزيز متعدد المهام القابلة للتوسع في بيئة محاكاة متنوعة.بشكل عام، تحقّق $π_{\text{RL}}$ تحسينات كبيرة في الأداء، وتميّزت بقدرة تعميم أقوى مقارنة بنماذج SFT، مما يؤكد فعالية التعلم بالتعزيز المباشر (online RL) في تدريب النماذج القائمة على التدفق من نوع VLA.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.