X-VLA: نموذج رؤية-لغة-عمل قابل للتوسع مبني على محول مُشَجَّع ناعم
X-VLA: نموذج رؤية-لغة-عمل قابل للتوسع مبني على محول مُشَجَّع ناعم

الملخص
تعتمد النماذج الشاملة الناجحة من نوع رؤية-لغة-عمل (VLA) على تدريب فعّال عبر منصات روبوتية متنوعة، باستخدام مجموعات بيانات واسعة النطاق، متنوعة في الهيكل (cross-embodiment)، ومتعددة الأنواع. ولتمكين الاستفادة من التباين المُتَعَدِّد في مصادر البيانات الروبوتية الغنية والمتعددة، نُقدِّم منهجية جديدة تُسمَّى "النُّسَب الناعمة" (Soft Prompt)، تُضَيف عددًا مُنَقَصًا جدًا من المُعامِلات، من خلال دمج مفاهيم تعلُّم النُّسَب (prompt learning) في تعلُّم الروبوتات المُتعدِّدة الأشكال (cross-embodiment)، وتقديم مجموعات منفصلة من التضمينات القابلة للتعلُّم لكل مصدر بيانات مُتمايز. تُستخدم هذه التضمينات كنُسَب مُخصَّصة للهيئة (embodiment-specific prompts)، والتي، عند دمجها معًا، تُمكِّن نماذج VLA من استغلال فعّال للخصائص المُتعدِّدة بين الأشكال المختلفة. يعتمد نموذجنا الجديد X-VLA، وهو معمارية VLA مبنية على مطابقة التدفُّق (flow-matching) بسيطة وذات تدفق منسق، بالكامل على مُشفِّرات ترانسفورمر القياسية المُنَسَّبة ناعمًا (soft-prompted standard Transformer encoders)، ما يمنحه ميزتي التوسعية (scalability) والبساطة. وقد تم تقييمه على 6 بيئات محاكاة، بالإضافة إلى 3 روبوتات حقيقية، حيث حقق نموذج X-VLA-0.9B (بحجم 0.9 مليار معلمة) أداءً من الدرجة الأولى (SOTA) عبر مجموعة واسعة من الاختبارات، مُظهِرًا نتائج مُتفوِّقة على محاور واسعة من القدرات، بدءًا من الدقة المُتَعدِّدة (flexible dexterity) وانتهاءً بالتكيف السريع بين الأشكال، والبيئات، والمهام.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.