HyperAIHyperAI
منذ 2 أشهر

TraceVLA: تحسين الوعي المكاني-الزماني للسياسات الروبوتية العامة من خلال التحفيز البصري للمسارات

Ruijie Zheng, Yongyuan Liang, Shuaiyi Huang, Jianfeng Gao, Hal Daumé III, Andrey Kolobov, Furong Huang, Jianwei Yang
TraceVLA: تحسين الوعي المكاني-الزماني للسياسات الروبوتية العامة من خلال التحفيز البصري للمسارات
الملخص

رغم أن نماذج الرؤية-اللغة-الفعل (VLA) الكبيرة التي تم تدريبها مسبقًا على مجموعات بيانات روبوتية واسعة تعطي سياسات شاملة واعدة للتعلم الروبوتي، إلا أنها لا تزال تواجه صعوبات في التعامل مع الديناميكيات المكانية-الزمانية في الروبوتات التفاعلية، مما يجعلها أقل فعالية في التعامل مع المهام المعقدة مثل التلاعب. في هذا البحث، نقدم تقنية الإشارة المرئية (visual trace prompting)، وهي طريقة بسيطة ومعتبرة لتعزيز الوعي المكاني-الزماني لنماذج VLA من أجل التنبؤ بالأفعال من خلال ترميز المسارات الحالة-الفعل بصريًا. قمنا بتطوير نموذج TraceVLA جديد عن طريق إعادة تدريب OpenVLA على مجموعة بيانات خاصة جمعناها تتضمن 150 ألف مسار تلاعب روبوتي باستخدام الإشارة المرئية. أظهرت تقييمات TraceVLA عبر 137 تركيبة في بيئة SimplerEnv وأربع مهام على روبوت WidowX الفعلي أداءً يتفوق على الأداء الحالي، حيث تفوق على OpenVLA بنسبة 10% في SimplerEnv و3.5 مرة في المهام الروبوتية الفعلية، كما أظهرت قدرته على التعميم بشكل قوي عبر أجساد وأنماط مختلفة. للتحقق أكثر من فعالية ومنهجيتنا العامة، نقدم نموذج VLA مضغوطًا يستند إلى Phi-3-Vision بحجم 4 مليار معلمة، تم تدريبه مسبقًا على Open-X-Embodiment وإعادة تدريبه على مجموعة البيانات الخاصة بنا، والذي ينافس النموذج الأساسي OpenVLA بحجم 7 مليار معلمة بينما يحسن كفاءة الاستدلال بشكل كبير.

TraceVLA: تحسين الوعي المكاني-الزماني للسياسات الروبوتية العامة من خلال التحفيز البصري للمسارات | أحدث الأوراق البحثية | HyperAI