نموذج العالم الروبوتى: محاكي شبكات عصبية لتحسين السياسات المتميزة في الروبوتات
نموذج العالم الروبوتى: محاكي شبكات عصبية لتحسين السياسات المتميزة في الروبوتات
Chenhao Li Andreas Krause Marco Hutter

الملخص
يُعد تعلُّم نماذج عالمية قوية وقابلة للتوسع أمرًا حيويًا لتمكين التحكم الآلي الفعّال والقابل للتوسع في البيئات الواقعية. في هذا العمل، نقدّم إطارًا جديدًا لتعلُّم نماذج العالم، يُمكّن من التقاط ديناميات معقدة وجزئيّة المراقبة وعشوائية بدقة. تعتمد الطريقة المقترحة على آلية تلقائية مزدوجة (dual-autoregressive) وتدريب ذاتي-مُراقب (self-supervised) لتحقيق تنبؤات موثوقة على مدى طويل دون الاعتماد على انحيازات توجيهية محددة بالحقل (domain-specific inductive biases)، مما يضمن مرونة التكيّف عبر مهام روبوتية متنوعة. ونُقدّم كذلك إطارًا لتحسين السياسات (policy optimization) يستفيد من نماذج العالم لتدريب فعّال في بيئات مُتخيلة، وتنفيذ سلس في الأنظمة الواقعية. يُسهم هذا العمل في تطوير التعلم المعزّز القائم على النموذج (model-based reinforcement learning) من خلال معالجة التحديات المتعلقة بالتنبؤ على مدى طويل، وتكاثر الأخطاء، ونقل التمثيل من المحاكاة إلى الواقع (sim-to-real transfer). وبتقديم إطار قابل للتوسع وقائم على الموثوقية، تُمكّن الطرق المقدمة من تحقيق أنظمة روبوتية مُتكيفة وفعّالة في التطبيقات الواقعية.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.