Command Palette
Search for a command to run...
زهري: تعميم سياسات الروبوت الشاملة بفضل سياسات التدفق الفعالة للرؤية واللغة والعمل
Moritz Reuss Hongyi Zhou Marcel Rühle Ömer Erdinç Yağmurlu Fabian Otto Rudolf Lioutikov

الملخص
يُعد تطوير سياسات فعّالة تجمع بين الرؤية واللغة والعمل (VLA) أمراً حاسماً لتنفيذ الروبوتات في البيئات العملية، غير أن النماذج الحالية تواجه تكاليف حسابية باهظة ومتطلبات موارد كبيرة. فتتطلب السياسات القائمة على التفريغ (diffusion) نماذج بعشرات المليارات من المعلمات وكتل بيانات ضخمة لتحقيق أداءً قوياً. ونُعالج هذه التحديات المتعلقة بالكفاءة من خلال مساهمتين رئيسيتين: أولهما دمج الوسائط الوسيطة، الذي يُعيد توزيع القدرة الحسابية على وحدة التفريغ (diffusion head) من خلال حذف ما يصل إلى 50% من طبقات نموذج اللغة الكبير (LLM)، وثانيهما تهيئة Global-AdaLN المخصصة للعمل (action-specific Global-AdaLN conditioning)، التي تقلل من عدد المعلمات بنسبة 20% من خلال تكييف معياري. ونُدمج هاتان الميزة في نموذج VLA جديد بحجم 950 مليون معلمة يُسمى FLOWER. ويُدرب النموذج مسبقاً في غضون 200 ساعة من استخدام وحدات معالجة H100، ويُظهر أداءً تنافسياً مُضاهياً للنماذج الأكبر في 190 مهمة تغطي عشرة معايير محاكاة وبيئات واقعية، ويُظهر مرونة عالية عبر تشكيلات روبوتية متنوعة. علاوة على ذلك، يحقق FLOWER رقماً قياسياً جديداً (SoTA) قدره 4.53 في معيار CALVIN ABC. ويمكن الاطلاع على عروض توضيحية، والكود المصدري، وقيم المعلمات المُدرّبة مسبقاً من خلال الرابط: https://intuitive-robots.github.io/flower_vla/.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.