Command Palette
Search for a command to run...
انظر قبل التصرف: تعزيز تمثيلات الأساس البصري لنماذج الرؤية واللغة والإجراء
انظر قبل التصرف: تعزيز تمثيلات الأساس البصري لنماذج الرؤية واللغة والإجراء
الملخص
ظهرت نماذج الرؤية-اللغة-الفعل (Vision-Language-Action أو VLA) مؤخرًا كمنهج واعد في مجال التلاعب الروبوتي، حيث يعتمد التنبؤ الدقيق بالإجراءات بشكل حاسم على القدرة على تفسير الملاحظات البصرية ودمجها بدقة، وذلك بناءً على تعليمات لغوية. ورغم أن الأعمال البحثية الحديثة سعت إلى تعزيز القدرات البصرية لنماذج VLA، فإن معظم هذه المنهجيات تعامل العمود الفقري للنموذج اللغوي الضخم (LLM) كصندوق أسود، مما يحد من الفهم لكيفية ترسيخ المعلومات البصرية في عملية توليد الإجراءات. وعليه، قمنا بإجراء تحليل منهجي لعدة نماذج VLA عبر مختلف مناهج توليد الإجراءات، ولاحظنا أن الحساسية للرموز البصرية (visual tokens) تتناقص تدريجيًا في الطبقات العميقة أثناء عملية توليد الإجراءات. استنادًا إلى هذه الملاحظة، نقترح نموذج DeepVision-VLA، المبني على إطار عمل مختلط من محولات الرؤية واللغة (Vision-Language Mixture-of-Transformers أو VL-MoT). يتيح هذا الإطار مشاركة آليات الانتباه بين نموذج الأساس البصري والعمود الفقري لنموذج VLA، مع حقن ميزات بصرية متعددة المستويات من الخبير البصري في الطبقات العميقة من العمود الفقري لنموذج VLA، وذلك لتعزيز التمثيلات البصرية اللازمة لأداء مهام تلاعب دقيقة ومعقدة. علاوة على ذلك، نقدم تقنية التقليم البصري الموجه بالإجراءات (Action-Guided Visual Pruning أو AGVP)، والتي تستفيد من آليات الانتباه في الطبقات الضحلة لاستبعاد الرموز البصرية غير ذات الصلة مع الحفاظ على تلك ذات الصلة بالمهمة، مما يعزز الإشارات البصرية الحرجة اللازمة للتلاعب بأقل تكلفة حاسوبية ممكنة. تفوق نموذج DeepVision-VLA على أحدث الأساليب السابقة بنسبة 9.0% في المهام المُحاكاة، وبنسبة 7.5% في المهام الواقعية، مقدّمًا رؤى جديدة لتصميم نماذج VLA مُعزَّزة بصريًا.