الملخص

غالباً ما يُبحث في الذكاء الجسدي من خلال نماذج متخصصة مخصصة لمهام فردية مثل المناورة أو الملاحة، مما يؤدي إلى قدرات مجزأة وتعميم محدود عبر المهام والبيئات وتجسيدات الروبوت. في هذا العمل، ندرس إمكانية توحيد مشاكل اتخاذ القرار الجسدية المتباينة ضمن نموذج واحد يجمع بين الرؤية واللغة والإجراء. نقدم نموذج Qwen-VLA، وهو نموذج أساسي موحد للذكاء الجسدي يمتد ببنية نمذجة الرؤية واللغة الخاصة بـ Qwen من مراحل الإدراك والفهم والاستدلال إلى توليد الإجراءات المستمرة والمسارات من خلال فاعل إجراء قائم على DiT. خضع Qwen-VLA للتدريب باستخدام منهجية تدريب مسبق مشترك واسعة النطاق عبر مصادر بيانات متنوعة، تشمل مسارات مناورة الروبوت، والعروض التوضيحية البشرية الذاتية المركز، وبيانات المحاكاة الاصطناعية، وبيانات الملاحة القائمة على الرؤية واللغة، والإشراف المتمحور حول المسار، وبيانات الرؤية واللغة المساعدة. دعماً لدعم منصات روبوت متعددة، نقدم آلية تهيئة للموجهات واعية بالتجسيد، حيث تحدد الأوصاف النصية الخاصة بكل روبوت التجسيد الحالي واتفاقية التحكم المعتمدة. كما ندمج مهام المناورة والملاحة والتنبؤ بالمسار في إطار عمل موحد للتنبؤ بالإجراءات والمسارات، مما يمكّن من التأسيس البصري القابل للنقل، والاستدلال المكاني، وتوليد الإجراءات المستمرة عبر مختلف أشكال الروبوتات، وعائلات المهام، والبيئات. تُظهر التجارب المعتمدة على مقاييس المناورة والملاحة والمتمحورة حول المسار أداءً متسقاً عبر المهام المتعددة، وقدرة على التعميم خارج التوزيع عند حدوث تغيرات في تخطيط المشهد، والخلفية، والإضاءة، وتكوين الكائنات، وتجسيد الروبوت. حقق نموذج Qwen-VLA-Instruct دقة بلغت 97.9٪ على مجموعة LIBERO، و73.7٪ على Simpler-WidowX، و86.1٪/87.2٪ على RoboTwin-Easy/Hard، و69.0٪ لمعدل OSR على R2R، و59.6٪ لمعدل SR على RxR، و76.9٪ متوسط نسبة النجاح خارج التوزيع (OOD) في تجارب ALOHA الواقعية، و26.6٪ لنجاح التعلم بصفر أمثلة على مهمة DOMINO للمناورة الديناميكية.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Command Palette

Qwen-VLA: توحيد نمذجة الرؤية واللغة والإجراء عبر المهام والبيئات وتجسيدات الروبوت

Qiuyue Wang Mingsheng Li Jian Guan Jinhui Ye Sicheng Xie Yitao Liu Junhao Chen Zhixuan Liang Jie Zhang Xintong Hu30 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

Qwen-VLA: توحيد نمذجة الرؤية واللغة والإجراء عبر المهام والبيئات وتجسيدات الروبوت

Qiuyue Wang Mingsheng Li Jian Guan Jinhui Ye Sicheng Xie Yitao Liu Junhao Chen Zhixuan Liang Jie Zhang Xintong Hu30 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

Qwen-VLA: توحيد نمذجة الرؤية واللغة والإجراء عبر المهام والبيئات وتجسيدات الروبوت

Qiuyue Wang Mingsheng Li Jian Guan Jinhui Ye Sicheng Xie Yitao Liu Junhao Chen Zhixuan Liang Jie Zhang Xintong Hu30 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Qiuyue Wang Mingsheng Li Jian Guan Jinhui Ye Sicheng Xie Yitao Liu Junhao Chen Zhixuan Liang Jie Zhang Xintong Hu

Qiuyue Wang Mingsheng Li Jian Guan Jinhui Ye Sicheng Xie Yitao Liu Junhao Chen Zhixuan Liang Jie Zhang Xintong Hu

Qiuyue Wang Mingsheng Li Jian Guan Jinhui Ye Sicheng Xie Yitao Liu Junhao Chen Zhixuan Liang Jie Zhang Xintong Hu