HyperAIHyperAI
منذ 11 أيام

إلى سياسات روبوت عامة: ما الذي يهم في بناء نماذج الرؤية واللغة والعمل

Xinghang Li, Peiyan Li, Minghuan Liu, Dong Wang, Jirong Liu, Bingyi Kang, Xiao Ma, Tao Kong, Hanbo Zhang, Huaping Liu
إلى سياسات روبوت عامة: ما الذي يهم في بناء نماذج الرؤية واللغة والعمل
الملخص

تُظهر نماذج اللغة والرؤية الأساسية (VLMs) قدرات قوية في التعلم التمثيلي متعدد الوسائط، والفهم، والاستنتاج. من خلال دمج مكونات الإجراء في نماذج VLMs، يمكن تكوين نماذج اللغة والرؤية والإجراء (VLAs) بشكل طبيعي، وتُظهر أيضًا أداءً واعدًا. وقد أثبتت الدراسات السابقة فعالية وقابلية التعميم لـ VLAs في سيناريوهات ومهمات متعددة. ومع ذلك، فإن عملية التحويل من VLMs إلى VLAs ليست أمرًا بسيطًا، نظرًا لاختلاف النماذج الحالية من حيث الهياكل الأساسية (backbones)، وصيغ توقع الإجراءات، وتوزيعات البيانات، ووصفات التدريب. هذا يؤدي إلى غياب جزء أساسي في الفهم المنهجي لاختيارات التصميم في VLAs. في هذا العمل، نكشف عن العوامل الأساسية التي تؤثر بشكل كبير على أداء VLA، ونركّز على الإجابة عن ثلاث قرارات تصميم أساسية: أي هيكل أساسي يجب اختياره، وكيفية صياغة هياكل VLA، ومتى ينبغي إضافة بيانات متعددة التمثيلات (cross-embodiment). تُقنعنا النتائج المُستخلصة بقوة بضرورة تبرير الحاجة إلى VLA، ونتيجة لذلك نطور عائلة جديدة من نماذج VLAs تُسمى RoboVLMs، والتي تتطلب تصميمًا يدويًا قليلاً، وتُحقق أداءً جديدًا على مستوى الحد الأقصى (state-of-the-art) في ثلاث مهام محاكاة وتجارب في العالم الحقيقي. من خلال تجاربنا الواسعة، التي تشمل أكثر من 8 هياكل أساسية لـ VLMs، و4 هياكل لسياسات التصرف، وأكثر من 600 تجربة مصممة بشكل مختلف، نقدم دليلاً مفصلاً لتصميم VLAs في المستقبل. وبالإضافة إلى الدراسة، نُطلق إطار عمل RoboVLMs المرن للغاية، الذي يدعم دمجًا سهلًا لـ VLMs جديدة، وتركيبات حرة لخيارات التصميم المختلفة، لتمكين الأبحاث المستقبلية. ونُصدر جميع التفاصيل مفتوحة المصدر، بما في ذلك الكود، النماذج، المجموعات البيانات، والأدوات، إلى جانب وصف دقيق لإجراءات التدريب والتقييم، على الموقع: robovlms.github.io.

إلى سياسات روبوت عامة: ما الذي يهم في بناء نماذج الرؤية واللغة والعمل | أحدث الأوراق البحثية | HyperAI