Command Palette
Search for a command to run...
Qwen-VLA: توحيد نمذجة الرؤية واللغة والإجراء عبر المهام والبيئات وتجسيدات الروبوت
Qwen-VLA: توحيد نمذجة الرؤية واللغة والإجراء عبر المهام والبيئات وتجسيدات الروبوت
الملخص
غالباً ما يُبحث في الذكاء الجسدي من خلال نماذج متخصصة مخصصة لمهام فردية مثل المناورة أو الملاحة، مما يؤدي إلى قدرات مجزأة وتعميم محدود عبر المهام والبيئات وتجسيدات الروبوت. في هذا العمل، ندرس إمكانية توحيد مشاكل اتخاذ القرار الجسدية المتباينة ضمن نموذج واحد يجمع بين الرؤية واللغة والإجراء. نقدم نموذج Qwen-VLA، وهو نموذج أساسي موحد للذكاء الجسدي يمتد ببنية نمذجة الرؤية واللغة الخاصة بـ Qwen من مراحل الإدراك والفهم والاستدلال إلى توليد الإجراءات المستمرة والمسارات من خلال فاعل إجراء قائم على DiT. خضع Qwen-VLA للتدريب باستخدام منهجية تدريب مسبق مشترك واسعة النطاق عبر مصادر بيانات متنوعة، تشمل مسارات مناورة الروبوت، والعروض التوضيحية البشرية الذاتية المركز، وبيانات المحاكاة الاصطناعية، وبيانات الملاحة القائمة على الرؤية واللغة، والإشراف المتمحور حول المسار، وبيانات الرؤية واللغة المساعدة. دعماً لدعم منصات روبوت متعددة، نقدم آلية تهيئة للموجهات واعية بالتجسيد، حيث تحدد الأوصاف النصية الخاصة بكل روبوت التجسيد الحالي واتفاقية التحكم المعتمدة. كما ندمج مهام المناورة والملاحة والتنبؤ بالمسار في إطار عمل موحد للتنبؤ بالإجراءات والمسارات، مما يمكّن من التأسيس البصري القابل للنقل، والاستدلال المكاني، وتوليد الإجراءات المستمرة عبر مختلف أشكال الروبوتات، وعائلات المهام، والبيئات. تُظهر التجارب المعتمدة على مقاييس المناورة والملاحة والمتمحورة حول المسار أداءً متسقاً عبر المهام المتعددة، وقدرة على التعميم خارج التوزيع عند حدوث تغيرات في تخطيط المشهد، والخلفية، والإضاءة، وتكوين الكائنات، وتجسيد الروبوت. حقق نموذج Qwen-VLA-Instruct دقة بلغت 97.9٪ على مجموعة LIBERO، و73.7٪ على Simpler-WidowX، و86.1٪/87.2٪ على RoboTwin-Easy/Hard، و69.0٪ لمعدل OSR على R2R، و59.6٪ لمعدل SR على RxR، و76.9٪ متوسط نسبة النجاح خارج التوزيع (OOD) في تجارب ALOHA الواقعية، و26.6٪ لنجاح التعلم بصفر أمثلة على مهمة DOMINO للمناورة الديناميكية.