الملخص

ظهرت نماذج الرؤية-اللغة-الفعل (Vision-Language-Action أو VLA) مؤخرًا كمنهج واعد في مجال التلاعب الروبوتي، حيث يعتمد التنبؤ الدقيق بالإجراءات بشكل حاسم على القدرة على تفسير الملاحظات البصرية ودمجها بدقة، وذلك بناءً على تعليمات لغوية. ورغم أن الأعمال البحثية الحديثة سعت إلى تعزيز القدرات البصرية لنماذج VLA، فإن معظم هذه المنهجيات تعامل العمود الفقري للنموذج اللغوي الضخم (LLM) كصندوق أسود، مما يحد من الفهم لكيفية ترسيخ المعلومات البصرية في عملية توليد الإجراءات. وعليه، قمنا بإجراء تحليل منهجي لعدة نماذج VLA عبر مختلف مناهج توليد الإجراءات، ولاحظنا أن الحساسية للرموز البصرية (visual tokens) تتناقص تدريجيًا في الطبقات العميقة أثناء عملية توليد الإجراءات. استنادًا إلى هذه الملاحظة، نقترح نموذج DeepVision-VLA، المبني على إطار عمل مختلط من محولات الرؤية واللغة (Vision-Language Mixture-of-Transformers أو VL-MoT). يتيح هذا الإطار مشاركة آليات الانتباه بين نموذج الأساس البصري والعمود الفقري لنموذج VLA، مع حقن ميزات بصرية متعددة المستويات من الخبير البصري في الطبقات العميقة من العمود الفقري لنموذج VLA، وذلك لتعزيز التمثيلات البصرية اللازمة لأداء مهام تلاعب دقيقة ومعقدة. علاوة على ذلك، نقدم تقنية التقليم البصري الموجه بالإجراءات (Action-Guided Visual Pruning أو AGVP)، والتي تستفيد من آليات الانتباه في الطبقات الضحلة لاستبعاد الرموز البصرية غير ذات الصلة مع الحفاظ على تلك ذات الصلة بالمهمة، مما يعزز الإشارات البصرية الحرجة اللازمة للتلاعب بأقل تكلفة حاسوبية ممكنة. تفوق نموذج DeepVision-VLA على أحدث الأساليب السابقة بنسبة 9.0% في المهام المُحاكاة، وبنسبة 7.5% في المهام الواقعية، مقدّمًا رؤى جديدة لتصميم نماذج VLA مُعزَّزة بصريًا.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Command Palette

انظر قبل التصرف: تعزيز تمثيلات الأساس البصري لنماذج الرؤية واللغة والإجراء

Yulin Luo Hao Chen Zhuangzhe Wu Bowen Sui Jiaming Liu Chenyang Gu Zhuoyang Liu Qiuxuan Feng Jiale Yu Shuo Gu3 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

انظر قبل التصرف: تعزيز تمثيلات الأساس البصري لنماذج الرؤية واللغة والإجراء

Yulin Luo Hao Chen Zhuangzhe Wu Bowen Sui Jiaming Liu Chenyang Gu Zhuoyang Liu Qiuxuan Feng Jiale Yu Shuo Gu3 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

انظر قبل التصرف: تعزيز تمثيلات الأساس البصري لنماذج الرؤية واللغة والإجراء

Yulin Luo Hao Chen Zhuangzhe Wu Bowen Sui Jiaming Liu Chenyang Gu Zhuoyang Liu Qiuxuan Feng Jiale Yu Shuo Gu3 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Yulin Luo Hao Chen Zhuangzhe Wu Bowen Sui Jiaming Liu Chenyang Gu Zhuoyang Liu Qiuxuan Feng Jiale Yu Shuo Gu

Yulin Luo Hao Chen Zhuangzhe Wu Bowen Sui Jiaming Liu Chenyang Gu Zhuoyang Liu Qiuxuan Feng Jiale Yu Shuo Gu

Yulin Luo Hao Chen Zhuangzhe Wu Bowen Sui Jiaming Liu Chenyang Gu Zhuoyang Liu Qiuxuan Feng Jiale Yu Shuo Gu