WMPO: تحسين السياسة القائمة على النموذج العالمي للنماذج البصرية-اللغوية-العملية
Fangqi Zhu Zhengyang Yan Zicong Hong Quanxin Shou Xiao Ma Song Guo

الملخص
أظهرت نماذج الرؤية واللغة والفعل (VLA) إمكانات قوية في التلاعب الروبوتي العام الغرض، لكن اعتمادها على التدريبات الخبيرة يحد من قدرتها على التعلم من الأخطاء وإجراء تصحيحات ذاتية. تُعالج التعلم التقويمي (RL) هذه التحديات من خلال التفاعلات التحسينية الذاتية مع البيئة الفعلية، لكنها تعاني من تعقيد عالي في العينات عند استخدام الروبوتات الحقيقية. نقدّم إطارًا منهجيًا يُسمى "تحسين السياسة القائمة على نموذج العالم" (WMPO)، وهو إطار لتعلم التقويم القائم على السياسة (on-policy) لنماذج VLA دون الحاجة إلى التفاعل مع البيئة الحقيقية. على عكس النماذج العالمية المختبئة الشائعة الاستخدام، يركّز WMPO على التنبؤات القائمة على البكسل، بحيث تتماشى المسارات "الخيالية" مع الميزات المُدرّبة مسبقًا لنموذج VLA باستخدام صور من مقياس واسع على الإنترنت. وبشكل حاسم، يمكّن WMPO السياسة من تنفيذ عملية GRPO القائمة على السياسة (on-policy)، التي تُقدّم أداءً أقوى مقارنةً بالأساليب غير القائمة على السياسة (off-policy) الشائعة الاستخدام. تُظهر التجارب الواسعة في البيئات المُحاكاة والروبوتات الحقيقية أن WMPO (أ) يحسّن بشكل كبير كفاءة استخدام العينات، (ب) يحقق أداءً عامًا أقوى، (ج) يُظهر سلوكيات ناشئة مثل التصحيح الذاتي، و(د) يُظهر قدرات متقدمة على التعميم والتعلم مدى الحياة.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.