Command Palette
Search for a command to run...
πextttRL: التدريب الدقيق عبر الإنترنت للتعلم بالتعزيز لنموذج الرؤية واللغة والعمل القائم على التدفق
πextttRL: التدريب الدقيق عبر الإنترنت للتعلم بالتعزيز لنموذج الرؤية واللغة والعمل القائم على التدفق
الملخص
تمكّن نماذج الرؤية واللغة والفعل (VLA) الروبوتات من فهم المهام المعقدة وأداؤها بناءً على مدخلات متعددة الوسائط. وعلى الرغم من أن الدراسات الحديثة تستكشف استخدام التعلم بالتعزيز (RL) لآليّة جمع البيانات المُرهقة في تحسين التدريب المُراقب على نطاق واسع (SFT)، إلا أن تطبيق التعلم بالتعزيز على نطاق واسع على النماذج القائمة على التدفق (flow-based VLAs) – مثل π0 وπ0.5 – يظل تحديًا كبيرًا، نظرًا لصعوبة حساب احتمالات الإجراء (action log-likelihood) الناتجة عن عملية إزالة الضوضاء التكرارية.لحل هذا التحدي، نقدّم πRL، وهي إطار مفتوح المصدر مُصمم لتدريب النماذج القائمة على التدفق من نوع VLA في بيئة محاكاة متوازية. يُطبّق πRL خوارزميتين للتعلم بالتعزيز: (1) {Flow-Noise}، التي تُمثّل عملية إزالة الضوضاء كنموذج قرار ماركوفي متقطع الزمن (MDP) مع شبكة ضوضاء قابلة للتعلم، مما يسمح بحساب دقيق لاحتمالات الإجراء. (2) {Flow-SDE}، التي تدمج عملية إزالة الضوضاء مع تفاعل الوكيل مع البيئة، وتصوّر نموذجًا ثنائي الطبقات يعتمد على تحويل المعادلات التفاضلية العادية (ODE) إلى معادلات تفاضلية عشوائية (SDE) لتمكين استكشاف فعّال في التعلم بالتعزيز.قمنا بتقييم πRL على معايير LIBERO وManiSkill. على معيار LIBERO، زادت πRL من أداء نماذج SFT القليلة التدريب (π0 وπ0.5) من 57.6% إلى 97.6%، ومن 77.1% إلى 98.3% على التوالي. أما في معيار ManiSkill، فقد تم تدريب πRL في 320 بيئة محاكاة متوازية، ما أدى إلى تحسين أداء π0 من 41.6% إلى 85.7%، وπ0.5 من 40.0% إلى 84.8% على مدار 4352 مهمة رفع ووضع، مما يُظهر قدرة التعلم بالتعزيز متعدد المهام القابلة للتوسع في بيئة محاكاة متنوعة.بشكل عام، تحقّق πRL تحسينات كبيرة في الأداء، وتميّزت بقدرة تعميم أقوى مقارنة بنماذج SFT، مما يؤكد فعالية التعلم بالتعزيز المباشر (online RL) في تدريب النماذج القائمة على التدفق من نوع VLA.