منذ 16 أيام

OpenVLA: نموذج بصري-لغوي-إجراء مفتوح المصدر

Moo Jin Kim, Karl Pertsch, Siddharth Karamcheti, Ted Xiao, Ashwin Balakrishna, Suraj Nair, Rafael Rafailov, Ethan Foster, Grace Lam, Pannag Sanketi, Quan Vuong, Thomas Kollar, Benjamin Burchfiel, Russ Tedrake, Dorsa Sadigh, Sergey Levine, Percy Liang, Chelsea Finn

عرض تفاصيل الورقة البحثية

OpenVLA: نموذج بصري-لغوي-إجراء مفتوح المصدر

الملخص

السياسات الكبيرة المُدرّبة مسبقًا على مزيج من بيانات الرؤية واللغة على نطاق الإنترنت والتجارب الروبوتية المتنوعة تمتلك القدرة على تغيير الطريقة التي نُدرّب بها الروبوتات على مهارات جديدة: بدلًا من تدريب سلوكيات جديدة من الصفر، يمكننا تحسين نماذج رؤية-لغة-فعل (VLA) هذه بدقة للحصول على سياسات قوية وقابلة للعامة في التحكم البصري-الحركي. ومع ذلك، ظلت الإنتشار الواسع لنماذج VLA في مجال الروبوتات تحديًا بسبب: 1) أن النماذج الحالية لـ VLA تظل مغلقة وغير متاحة للجمهور، و2) أن الدراسات السابقة فشلت في استكشاف طرق فعّالة لتحسين تدريب نماذج VLA على مهام جديدة، وهي مكون أساسي لقبولها.لحل هذه التحديات، نقدّم OpenVLA، وهو نموذج مفتوح المصدر بحجم 7 مليار معلمة، تم تدريبه على مجموعة متنوعة من 970 ألف تجربة واقعية لروبوتات. يُبنى OpenVLA على نموذج لغة Llama 2، مدمجًا مع معالج بصري يدمج الميزات المُدرّبة مسبقًا من DINOv2 وSigLIP. وبفضل تنوع البيانات المُضافة ومكونات النموذج الجديدة، يُظهر OpenVLA نتائج قوية في المهام العامة للتحكم باليد، ويتفوق على النماذج المغلقة مثل RT-2-X (55 مليار معلمة) بنسبة 16.5% في معدل نجاح المهام المطلق عبر 29 مهمة وعديد من الهياكل الروبوتية، مع استخدام 7 أضعاف أقل من المعلمات.كما نُظهر أننا يمكننا تحسين تدريب OpenVLA بكفاءة لبيئات جديدة، مع نتائج ممتازة في التعميم في البيئات متعددة المهام التي تتضمن عدة أشياء، وامتلاك قدرات قوية في التأصيل اللغوي، وتفوق طرق التعلّم بالتقليد من الصفر مثل Diffusion Policy بنسبة 20.4%. كما نستكشف كفاءة استخدام الموارد الحاسوبية؛ كمساهمة منفصلة، نُظهر أن OpenVLA يمكن تحسين تدريبه على وحدات معالجة الرسوميات المستهلكة باستخدام أساليب التكيف من الرتبة المنخفضة الحديثة، ويمكن تشغيله بكفاءة عبر التكميم دون التأثير على معدل النجاح في المهام النهائية.أخيرًا، نُطلق إصدارًا مفتوحًا لنقاط التدريب (checkpoints)، ومحررات التحسين (notebooks)، وبيئة الكود المبنية على PyTorch، مع دعم داخلي لتدريب نماذج VLA على نطاق واسع على مجموعات بيانات Open X-Embodiment.