HyperAIHyperAI
منذ 2 أشهر

النماذج الصورية التوليدية كنماذج للعمل

Mohit Shridhar; Yat Long Lo; Stephen James
النماذج الصورية التوليدية كنماذج للعمل
الملخص

تم تحسين نماذج التوسع لإنشاء الصور لتفعيل قدرات جديدة مثل تحرير الصور وإنشاء وجهات نظر جديدة. هل يمكننا تفعيل نماذج إنشاء الصور للتحكم الحركي البصري أيضًا؟ نقدم GENIMA، وهو وكيل تقليد سلوك يحسن Stable Diffusion لتقوم برسم أفعال مشتركة كأهداف على صور RGB. يتم إدخال هذه الصور في متحكم يربط الأهداف البصرية بسلسلة من مواقع المفاصل. ندرس GENIMA في 25 مهمة من RLBench و9 مهام عالمية حقيقية للتحكم. نجد أن، عن طريق رفع الأفعال إلى الفضاء البصري، يمكن لنماذج التوسع المدربة مسبقًا على الإنترنت إنشاء سياسات تتفوق على أفضل الطرق الحالية للتحكم الحركي البصري، خاصة فيما يتعلق بالمتانة ضد الاضطرابات المشهدية وتعميمها على أشياء جديدة. طريقتنا أيضًا تنافس الوكلاء ثلاثية الأبعاد، رغم عدم امتلاكها لمعلومات أولية مثل العمق أو النقاط الرئيسية أو خطط الحركة (motion-planners).

النماذج الصورية التوليدية كنماذج للعمل | أحدث الأوراق البحثية | HyperAI