HyperAIHyperAI

Command Palette

Search for a command to run...

انظر قبل التصرف: تعزيز تمثيلات الأساس البصري لنماذج الرؤية واللغة والإجراء

الملخص

ظهرت نماذج الرؤية-اللغة-الفعل (Vision-Language-Action أو VLA) مؤخرًا كمنهج واعد في مجال التلاعب الروبوتي، حيث يعتمد التنبؤ الدقيق بالإجراءات بشكل حاسم على القدرة على تفسير الملاحظات البصرية ودمجها بدقة، وذلك بناءً على تعليمات لغوية. ورغم أن الأعمال البحثية الحديثة سعت إلى تعزيز القدرات البصرية لنماذج VLA، فإن معظم هذه المنهجيات تعامل العمود الفقري للنموذج اللغوي الضخم (LLM) كصندوق أسود، مما يحد من الفهم لكيفية ترسيخ المعلومات البصرية في عملية توليد الإجراءات. وعليه، قمنا بإجراء تحليل منهجي لعدة نماذج VLA عبر مختلف مناهج توليد الإجراءات، ولاحظنا أن الحساسية للرموز البصرية (visual tokens) تتناقص تدريجيًا في الطبقات العميقة أثناء عملية توليد الإجراءات. استنادًا إلى هذه الملاحظة، نقترح نموذج DeepVision-VLA، المبني على إطار عمل مختلط من محولات الرؤية واللغة (Vision-Language Mixture-of-Transformers أو VL-MoT). يتيح هذا الإطار مشاركة آليات الانتباه بين نموذج الأساس البصري والعمود الفقري لنموذج VLA، مع حقن ميزات بصرية متعددة المستويات من الخبير البصري في الطبقات العميقة من العمود الفقري لنموذج VLA، وذلك لتعزيز التمثيلات البصرية اللازمة لأداء مهام تلاعب دقيقة ومعقدة. علاوة على ذلك، نقدم تقنية التقليم البصري الموجه بالإجراءات (Action-Guided Visual Pruning أو AGVP)، والتي تستفيد من آليات الانتباه في الطبقات الضحلة لاستبعاد الرموز البصرية غير ذات الصلة مع الحفاظ على تلك ذات الصلة بالمهمة، مما يعزز الإشارات البصرية الحرجة اللازمة للتلاعب بأقل تكلفة حاسوبية ممكنة. تفوق نموذج DeepVision-VLA على أحدث الأساليب السابقة بنسبة 9.0% في المهام المُحاكاة، وبنسبة 7.5% في المهام الواقعية، مقدّمًا رؤى جديدة لتصميم نماذج VLA مُعزَّزة بصريًا.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp