
الملخص
تحظى نماذج العالم التوليدية بإمكانات كبيرة في محاكاة التفاعلات مع السياسات البصرية-الحركية في بيئات متنوعة. إذ يمكن للنماذج الرائدة في الفيديو أن تُمكّن من إنتاج ملاحظات واقعية وتفاعلات بيئية بطريقة قابلة للتوسع وعامة. ومع ذلك، ظلت استخدامات نماذج الفيديو في الروبوتات محدودة بشكل رئيسي بتقييمات ضمن التوزيع (in-distribution)، أي السيناريوهات المشابهة لتلك التي استُخدمت في تدريب السياسة أو تعديل النموذج الأساسي للفيديو. في هذا التقرير، نُظهر أن نماذج الفيديو يمكن استخدامها لتغطية الطيف الكامل لحالات تقييم السياسات في مجال الروبوتات: بدءًا من تقييم الأداء القياسي، وصولاً إلى التعميم خارج التوزيع (OOD)، وفحص السلامة الفيزيائية والمعنوية. نقدّم نظامًا تقييميًا توليدياً مبنيًا على نموذج أساسي رائد في الفيديو (Veo). ويُعد هذا النظام مُحسّنًا لدعم تكييف الإجراءات الروبوتية وتحقيق الاتساق عبر الزوايا المتعددة، مع دمج تقنيات تحرير الصور التوليدية وإكمال المشاهد متعددة الزوايا، بهدف إنتاج تغيرات واقعية لمشاهد العالم الحقيقي على طول محاور متعددة للتعميم. ونُظهر أن النظام يحافظ على القدرات الأساسية للنموذج الأساسي للفيديو، مما يتيح محاكاة دقيقة للسيناريوهات التي تم تعديلها لإدراج كائنات تفاعل جديدة، وخلفيات بصرية جديدة، وكائنات مشتتة جديدة. ويُمكّن هذا الدقة من التنبؤ بدقة بأداء السياسات المختلفة في الظروف القياسية والظروف الخارجة عن التوزيع، وتحديد التأثير النسبي لكل محور من محاور التعميم على أداء السياسات، بالإضافة إلى إجراء اختبارات "الفرق الأحمر" (red teaming) للسياسات لكشف السلوكيات التي تنتهك قيود السلامة الفيزيائية أو المعنوية. وقد تم التحقق من هذه القدرات من خلال أكثر من 1600 تقييم واقعي لثمانية نقاط تحقق (checkpoints) من سياسات الروبوتات Gemini، وخمسة مهام لآلة مُعاملة ثنائية اليدين.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.