Command Palette
Search for a command to run...
مُتَنَوِّع التفتيت المنفصل: إدخال التفتيت المنفصل إلى تفكيك الإجراءات في سياسات الرؤية واللغة والفعل
Zhixuan Liang Yizhuo Li Tianshuo Yang Chengyue Wu Sitong Mao Liuao Pei Xiaokang Yang Jiangmiao Pang Yao Mu Ping Luo

الملخص
تمّ تكيّف نماذج الرؤية واللغة والفعل (VLA) مع الخلفيات الكبيرة للرؤية واللغة بهدف تحويل الصور والتعليمات إلى إجراءات روبوتية. ومع ذلك، فإن مُفكّكات VLA السائدة إما تولّد الإجراءات بشكل تسلسلي (أوتوريغريسيف) بترتيب ثابت من اليسار إلى اليمين، أو تضيف رؤوسًا مستمرة للتفتيت (diffusion) أو مطابقة التدفق خارج الهيكل الأساسي، ما يتطلب تدريبًا خاصًا وعينات متكررة تُعيق تطوير بنية موحدة وقابلة للتوسع. نقدّم نموذج VLA القائم على التفتيت المنفصل (Discrete Diffusion VLA)، وهو سياسة واحدة مبنية على المحول (transformer) تُمثّل أجزاء الإجراءات المُفرَّدة باستخدام التفتيت المنفصل، وتُدرّب باستخدام نفس دالة الخسارة المتقاطعة (cross-entropy) المستخدمة في هيكل نموذج الرؤية واللغة (VLM). يُحافظ التصميم على نموذج التحسين التدريجي المُميز للتفتيت، مع الحفاظ على التوافق الطبيعي مع واجهة الرموز المنفصلة (التيكنات) الخاصة بنماذج VLM. تُحقّق طريقة التصميم ترتيبًا تكيّفيًا للتحليل، حيث تُحلّ العناصر البسيطة من الإجراءات أولًا قبل العناصر الصعبة، كما تُستخدم تقنية إعادة التمويه الثانوية (secondary remasking) لاسترجاع التنبؤات غير المؤكدة عبر جولات التحسين المختلفة، ما يُحسّن من الاتساق ويُمكّن من تصحيح الأخطاء بفعالية. يُحافظ هذا المُفكّك المُوحّد على المعرفة السابقة المُدرّبة في نماذج الرؤية واللغة، ويدعم التحليل المتوازِي، ويُذلّل عقبة التسلسلية (autoregressive bottleneck)، ويقلّل عدد التقييمات الوظيفية. وتحقق نموذج Discrete Diffusion VLA نسبة متوسطة للنجاح (SR) تبلغ 96.3% على مجموعة بيانات LIBERO، و71.2% في مطابقة الصور على SimplerEnv Fractal، و49.3% بشكل عام على SimplerEnv Bridge، متفوّقةً على كلا النموذجين الأساسيين التسلسليين والتفتيت المستمر. تشير هذه النتائج إلى أن مُفكّك الإجراءات القائم على التفتيت المنفصل يُمكّن من نمذجة الإجراءات بدقة وتدريب متسق، مما يُعدّ أساسًا لتوسيع نطاق VLA إلى نماذج أكبر وبيانات أشمل.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.