Command Palette
Search for a command to run...

الملخص
أحرزت التطورات الحديثة في نماذج الأساس المرئية واللغوية تقدماً كبيراً في مجالات الفهم المتعدد الوسائط، والاستدلال، والإنتاج، ما أثار اهتماماً متنامياً بتوسيع هذه القدرات إلى البيئات المُتَمَثِّلة (embodied) من خلال نماذج الرؤية واللغة والفعل (VLA). ومع ذلك، لا تزال معظم نماذج VLA تُدرَّب باستخدام التحسين المُراقب (SFT)، والتي تواجه صعوبة في التعميم عند حدوث انزياحات في التوزيع بسبب تراكم الأخطاء. أما التعلم القوي (RL)، فيُعد بديلاً واعداً من خلال تحسين أداء المهمة مباشرةً عبر التفاعل، لكن المحاولات الحالية ما زالت مجزأة، وتفتقر إلى منصة موحدة تُمكّن من المقارنة العادلة والمنهجية بين مختلف هياكل النماذج والتصميمات الخوارزمية. ولسد هذا الفجوة، نقدّم RLinf-VLA، وهي إطار موحد وفعال لتدريب التعلم القوي القابل للتوسع على نماذج VLA. ويُعتمَد هذا النظام على تصميم مرنة للغاية لتخصيص الموارد، يُعالج التحدي المتمثل في دمج التصوير (rendering)، والتدريب، والاستنتاج في عملية تدريب RL+VLA. وبشكل خاص، بالنسبة للمُحاكيات المُوازية عبر وحدات معالجة الرسوميات (GPU)، يُطبّق RLinf-VLA نموذجاً هجيناً مُفصّلاً دقيقاً لتخصيص الأنابيب، مما يحقّق تسارعاً في التدريب بنسبة 1.61 إلى 1.88 مرة. وبفضل واجهة موحدة، يدعم RLinf-VLA بسلاسة مجموعة متنوعة من هياكل نماذج VLA (مثل OpenVLA، OpenVLA-OFT)، وعدد من خوارزميات التعلم القوي (مثل PPO، GRPO)، ومحاكاة متعددة (مثل ManiSkill، LIBERO). وفي البيئة الافتراضية، حقّق نموذج موحد أداءً بنسبة 98.11٪ على 130 مهمة من مهام LIBERO، وبنسبة 97.66٪ على 25 مهمة من مهام ManiSkill. وبالإضافة إلى الأداء التجريبي، استخلصت دراستنا مجموعة من أفضل الممارسات لتطبيق التعلم القوي في تدريب نماذج VLA، ووضّحت أنماطًا ناشئة في هذه العملية التكاملية. علاوةً على ذلك، قدّمنا نتائج أولية للتطبيق على روبوت فرانكا في العالم الحقيقي، حيث أظهرت السياسات المُدرّبة باستخدام التعلم القوي قدرة أقوى على التعميم مقارنةً بالسياسات المُدرّبة باستخدام SFT. ونُصوّر RLinf-VLA كأساس لتسريع وتوحيد الأبحاث في مجال الذكاء المُتَمَثِّل.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.