HyperAIHyperAI

Command Palette

Search for a command to run...

TraceVLA: تحسين الوعي المكاني-الزماني للسياسات الروبوتية العامة من خلال التحفيز البصري للمسارات

Ruijie Zheng Yongyuan Liang Shuaiyi Huang Jianfeng Gao Hal Daumé III Andrey Kolobov Furong Huang Jianwei Yang

الملخص

رغم أن نماذج الرؤية-اللغة-الفعل (VLA) الكبيرة التي تم تدريبها مسبقًا على مجموعات بيانات روبوتية واسعة تعطي سياسات شاملة واعدة للتعلم الروبوتي، إلا أنها لا تزال تواجه صعوبات في التعامل مع الديناميكيات المكانية-الزمانية في الروبوتات التفاعلية، مما يجعلها أقل فعالية في التعامل مع المهام المعقدة مثل التلاعب. في هذا البحث، نقدم تقنية الإشارة المرئية (visual trace prompting)، وهي طريقة بسيطة ومعتبرة لتعزيز الوعي المكاني-الزماني لنماذج VLA من أجل التنبؤ بالأفعال من خلال ترميز المسارات الحالة-الفعل بصريًا. قمنا بتطوير نموذج TraceVLA جديد عن طريق إعادة تدريب OpenVLA على مجموعة بيانات خاصة جمعناها تتضمن 150 ألف مسار تلاعب روبوتي باستخدام الإشارة المرئية. أظهرت تقييمات TraceVLA عبر 137 تركيبة في بيئة SimplerEnv وأربع مهام على روبوت WidowX الفعلي أداءً يتفوق على الأداء الحالي، حيث تفوق على OpenVLA بنسبة 10% في SimplerEnv و3.5 مرة في المهام الروبوتية الفعلية، كما أظهرت قدرته على التعميم بشكل قوي عبر أجساد وأنماط مختلفة. للتحقق أكثر من فعالية ومنهجيتنا العامة، نقدم نموذج VLA مضغوطًا يستند إلى Phi-3-Vision بحجم 4 مليار معلمة، تم تدريبه مسبقًا على Open-X-Embodiment وإعادة تدريبه على مجموعة البيانات الخاصة بنا، والذي ينافس النموذج الأساسي OpenVLA بحجم 7 مليار معلمة بينما يحسن كفاءة الاستدلال بشكل كبير.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp