Command Palette
Search for a command to run...
VLA-Adapter: نموذج فعّال لنمذجة الرؤية واللغة والفعل بحجم صغير جدًا

الملخص
تمثّل نماذج الرؤية واللغة والفعل (VLA) عادةً جسرًا بين الفضاءات الإدراكية والفعلية من خلال تدريب مسبق لنموذج كبير للرؤية واللغة (VLM) على بيانات روبوتية. وعلى الرغم من أن هذا النهج يُحسّن الأداء بشكل كبير، فإنه يُدرّب أيضًا تكاليف تدريب كبيرة. في هذه الورقة، نستعرض كيف يمكن ترسيخ الربط الفعّال بين تمثيلات الرؤية واللغة (VL) والفعل (A). ونقدّم VLA-Adapter، وهي منظومة جديدة مصممة لتقليل الاعتماد المفرط للنماذج VLA على النماذج الكبيرة VLM والتدريب المسبق الواسع النطاق. ولتحقيق ذلك، نقوم أولًا بتحليل منهجي لفعالية مختلف الظروف المتعلقة بالرؤية واللغة، ونُقدّم نتائج رئيسية حول الظروف الأساسية الضرورية لربط الفضاءات الإدراكية والفعلية. استنادًا إلى هذه الرؤى، نقترح وحدة سياسة خفيفة الوزن تمتلك انتباهًا جسريًا (Bridge Attention)، التي تقوم تلقائيًا بإدخال الظروف المثلى إلى الفضاء الفعلي. وبهذا، تحقق منطقتنا أداءً عاليًا باستخدام نواة بحجم 0.5 مليار معلمة فقط، دون الحاجة إلى تدريب مسبق على بيانات روبوتية. وقد أظهرت تجارب واسعة على معايير روبوتية محاكاة وواقعية أن VLA-Adapter لا يحقق أداءً من المستوى الرائد (state-of-the-art)، بل يقدّم أيضًا أسرع سرعة استنتاج مُبلغ عنها حتى الآن. علاوةً على ذلك، وبفضل المنظومة الجسرية المتطورة المقترحة، يُمكن تدريب نموذج VLA قوي في غضون 8 ساعات فقط على وحدة معالجة رسومية فردية من الفئة الاستهلاكية، مما يخفض بشكل كبير الحواجز المُنْتَظَرَة لتنفيذ نموذج VLA. صفحة المشروع: https://vla-adapter.github.io/.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.