HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 2 أشهر

مُتَنَوِّع التفتيت المنفصل: إدخال التفتيت المنفصل إلى تفكيك الإجراءات في سياسات الرؤية واللغة والفعل

Zhixuan Liang Yizhuo Li Tianshuo Yang Chengyue Wu Sitong Mao Liuao Pei Xiaokang Yang Jiangmiao Pang Yao Mu Ping Luo

مُتَنَوِّع التفتيت المنفصل: إدخال التفتيت المنفصل إلى تفكيك الإجراءات في سياسات الرؤية واللغة والفعل

الملخص

تمّ تكيّف نماذج الرؤية واللغة والفعل (VLA) مع الخلفيات الكبيرة للرؤية واللغة بهدف تحويل الصور والتعليمات إلى إجراءات روبوتية. ومع ذلك، فإن مُفكّكات VLA السائدة إما تولّد الإجراءات بشكل تسلسلي (أوتوريغريسيف) بترتيب ثابت من اليسار إلى اليمين، أو تضيف رؤوسًا مستمرة للتفتيت (diffusion) أو مطابقة التدفق خارج الهيكل الأساسي، ما يتطلب تدريبًا خاصًا وعينات متكررة تُعيق تطوير بنية موحدة وقابلة للتوسع. نقدّم نموذج VLA القائم على التفتيت المنفصل (Discrete Diffusion VLA)، وهو سياسة واحدة مبنية على المحول (transformer) تُمثّل أجزاء الإجراءات المُفرَّدة باستخدام التفتيت المنفصل، وتُدرّب باستخدام نفس دالة الخسارة المتقاطعة (cross-entropy) المستخدمة في هيكل نموذج الرؤية واللغة (VLM). يُحافظ التصميم على نموذج التحسين التدريجي المُميز للتفتيت، مع الحفاظ على التوافق الطبيعي مع واجهة الرموز المنفصلة (التيكنات) الخاصة بنماذج VLM. تُحقّق طريقة التصميم ترتيبًا تكيّفيًا للتحليل، حيث تُحلّ العناصر البسيطة من الإجراءات أولًا قبل العناصر الصعبة، كما تُستخدم تقنية إعادة التمويه الثانوية (secondary remasking) لاسترجاع التنبؤات غير المؤكدة عبر جولات التحسين المختلفة، ما يُحسّن من الاتساق ويُمكّن من تصحيح الأخطاء بفعالية. يُحافظ هذا المُفكّك المُوحّد على المعرفة السابقة المُدرّبة في نماذج الرؤية واللغة، ويدعم التحليل المتوازِي، ويُذلّل عقبة التسلسلية (autoregressive bottleneck)، ويقلّل عدد التقييمات الوظيفية. وتحقق نموذج Discrete Diffusion VLA نسبة متوسطة للنجاح (SR) تبلغ 96.3% على مجموعة بيانات LIBERO، و71.2% في مطابقة الصور على SimplerEnv Fractal، و49.3% بشكل عام على SimplerEnv Bridge، متفوّقةً على كلا النموذجين الأساسيين التسلسليين والتفتيت المستمر. تشير هذه النتائج إلى أن مُفكّك الإجراءات القائم على التفتيت المنفصل يُمكّن من نمذجة الإجراءات بدقة وتدريب متسق، مما يُعدّ أساسًا لتوسيع نطاق VLA إلى نماذج أكبر وبيانات أشمل.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
مُتَنَوِّع التفتيت المنفصل: إدخال التفتيت المنفصل إلى تفكيك الإجراءات في سياسات الرؤية واللغة والفعل | الأوراق البحثية | HyperAI