HyperAI
منذ 14 ساعات

فيلا-إكس: تحسين نمذجة الإجراءات المخفية في نماذج الرؤية واللغة والإجراء

Xiaoyu Chen, Hangxing Wei, Pushi Zhang, Chuheng Zhang, Kaixin Wang, Yanjiang Guo, Rushuai Yang, Yucen Wang, Xinquan Xiao, Li Zhao, Jianyu Chen, Jiang Bian
فيلا-إكس: تحسين نمذجة الإجراءات المخفية في نماذج الرؤية واللغة والإجراء
الملخص

أصبحت نماذج الرؤية واللغة والفعل (VLA) نموذجًا شائعًا لتعلم سياسات تشغيل الروبوتات القادرة على اتباع التعليمات اللغوية والتكيف مع السيناريوهات الجديدة. وبدأت الدراسات الحديثة في استكشاف دمج "الإجراءات المُخْفية" — وهي تمثيل مجرد للتغير البصري بين إطارين متتاليين — ضمن عملية التدريب المسبق لنماذج VLA. في هذا البحث، نقدّم "villa-X"، وهي إطار عمل جديد يُعرف بـ "الرؤية واللغة والإجراء المُخفي" (ViLLA)، يُحدث تقدّمًا كبيرًا في نمذجة الإجراءات المُخفيّة بهدف تعلّم سياسات تشغيل روبوتات قادرة على التعميم. تعزز منهجيتنا كلاً من طريقة تعلّم الإجراءات المُخفيّة وطريقة دمجها في التدريب المسبق لنماذج VLA. وبشكل متكامل، تُمكّن هذه المساهمات villa-X من تحقيق أداء متفوّق في بيئات محاكاة متعددة، بما في ذلك SIMPLER وLIBERO، وكذلك على مجموعتين واقعيتين من الروبوتات، تشملان تشغيل المُمسِك (Gripper) وتشغيل اليد الدقيقة (Dexterous Hand). نؤمن أن نموذج ViLLA يحمل إمكانات كبيرة، وأن villa-X يُمثّل أساسًا قويًا للبحث المستقبلي في هذا المجال.