Command Palette
Search for a command to run...
مُحاذاة-ثم-تَوجيه: تكييف نماذج الرؤية واللغة والعمل من خلال التوجيه المتجانس في الفضاء المخفي
Yang Zhang Chenwei Wang Ouyang Lu Yuan Zhao Yunfei Ge et al

الملخص
تُظهر نماذج الرؤية واللغة والفعل (VLA)، التي تم تدريبها مسبقًا على مجموعات بيانات كبيرة ومتنوعة، إمكانات مذهلة في التلاعب الروبوتى العام. ومع ذلك، ما يزال هناك عائق رئيسي يتمثل في تكييف هذه النماذج مع المهام اللاحقة، خصوصًا عندما تختلف هيئة الروبوت أو طبيعة المهمة عن بيانات التدريب المسبق. يؤدي هذا التباين إلى تباين كبير في توزيع الإجراءات، مما يستدعي استخدام كميات كبيرة من البيانات والقدرة الحاسوبية لتحسين الدقة بشكل فعّال. وللتغلب على هذا التحدي، نقدّم \textbf{Align-Then-stEer (\texttt{ATE})}، وهي إطار عمل جديد، وفِعّال من حيث استخدام البيانات، وقابل للتركيب مباشرة. يبدأ \texttt{ATE} بمحاذاة فضاءات الإجراءات المختلفة من خلال إنشاء فضاء خطي موحد، حيث يقوم متعدد التمثيلات العشوائية (Variational Autoencoder) المُقيّد بانحراف كولبوج-ليبلر العكسي بتمثيل الإجراءات المُعدّلة ضمن أنماط توزيع الفضاء الخطي للإجراءات في التدريب المسبق. ثم، يوجه عملية توليد النموذج القائم على التشتت أو التدفق في نماذج VLA أثناء التحسين الدقيق من خلال آلية توجيهية تدفع توزيع الناتج الخاص بالنموذج نحو المجال المستهدف. أجرينا تجارب مكثفة على التلاعب عبر الهياكل الروبوتية المختلفة والمهام المختلفة، في البيئات المحاكاة والواقع الفعلي. مقارنةً بالتحسين المباشر لنماذج VLA البارزة، يُحسّن أسلوبنا معدل النجاح المتوسط في المهام المتعددة بنسبة تصل إلى \textbf{9.8\%} في البيئة المحاكاة، ويحقق مكسبًا ملحوظًا في النجاح بنسبة \textbf{32\%} في بيئة واقعية تشمل تباينًا في الهيكل الروبوتى. تمثل هذه الدراسة حلاً عامًا وخفيف الوزن يُعزز بشكل كبير من جدوى تطبيق نماذج VLA على منصات روبوتية ومهام جديدة.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.