HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 2 أشهر

SimpleVLA-RL: توسيع تدريب VLA من خلال التعلم المعزز

SimpleVLA-RL: توسيع تدريب VLA من خلال التعلم المعزز

الملخص

أصبحت نماذج الرؤية واللغة والعمل (Vision-Language-Action، VLA) في الآونة الأخيرة نموذجًا قويًا لمهام التلاعب الروبوتي. وعلى الرغم من التقدم الكبير الذي أتاحه التدريب المسبق على نطاق واسع والضبط المُوجَّه (SFT)، تواجه هذه النماذج تحديين أساسيين: (أ) ندرة وتكاليف عالية للمسارات الروبوتية المُشغَّلة يدويًا على نطاق واسع المطلوبة لتوسيع نطاق SFT، و(ب) قدرة محدودة على التعميم في المهام التي تتضمن تغيرات في التوزيع. وقد أظهرت التطورات الحديثة في نماذج التفكير الكبيرة (Large Reasoning Models، LRMs) أن التعلم المعزز (Reinforcement Learning، RL) يمكنه تعزيز قدرات التفكير الخطوي بشكل كبير، مما يطرح سؤالًا طبيعيًا: هل يمكن للـ RL أن يُحسّن بدوره التخطيط للإجراءات الخطوية على المدى الطويل في نماذج VLA؟ في هذه الدراسة، نقدّم SimpleVLA-RL، وهي إطار فعّال للتعلم المعزز مُصمم خصيصًا لتطبيقات نماذج VLA. مستندين إلى veRL، نُقدّم تقنيات جديدة مخصصة لنماذج VLA، تشمل: عينة المسارات المخصصة لـ VLA، وتمديد التوازي القابل للتوسع، وعرض متعدد البيئات، وحساب خسارة مُحسَّن. عند تطبيقها على OpenVLA-OFT، تحقق SimpleVLA-RL أفضل أداء حاليًا (SoTA) على مجموعة بيانات LIBERO، وتفوق حتى نموذج pi_0 على RoboTwin 1.0 و2.0 بفضل الاستراتيجيات التي نقدّمها لتعزيز الاستكشاف. تقلل SimpleVLA-RL إلى حد كبير الاعتماد على كميات ضخمة من البيانات، وتمكّن من تعميم قوي، كما تتفوّق بشكل ملحوظ على SFT في المهام الواقعية. علاوةً على ذلك، تمكّنا من اكتشاف ظاهرة جديدة خلال تدريب RL تُسمّى "pushcut"، حيث تكتشف السياسة أنماطًا لم تُرَ من قبل، تتجاوز ما شوهد سابقًا في مراحل التدريب السابقة.رابط المشروع على جيت هاب: https://github.com/PRIME-RL/SimpleVLA-RL

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
SimpleVLA-RL: توسيع تدريب VLA من خلال التعلم المعزز | الأوراق البحثية | HyperAI