الملخص

رغم أن نماذج الرؤية-اللغة-الفعل (VLA) الكبيرة التي تم تدريبها مسبقًا على مجموعات بيانات روبوتية واسعة تعطي سياسات شاملة واعدة للتعلم الروبوتي، إلا أنها لا تزال تواجه صعوبات في التعامل مع الديناميكيات المكانية-الزمانية في الروبوتات التفاعلية، مما يجعلها أقل فعالية في التعامل مع المهام المعقدة مثل التلاعب. في هذا البحث، نقدم تقنية الإشارة المرئية (visual trace prompting)، وهي طريقة بسيطة ومعتبرة لتعزيز الوعي المكاني-الزماني لنماذج VLA من أجل التنبؤ بالأفعال من خلال ترميز المسارات الحالة-الفعل بصريًا. قمنا بتطوير نموذج TraceVLA جديد عن طريق إعادة تدريب OpenVLA على مجموعة بيانات خاصة جمعناها تتضمن 150 ألف مسار تلاعب روبوتي باستخدام الإشارة المرئية. أظهرت تقييمات TraceVLA عبر 137 تركيبة في بيئة SimplerEnv وأربع مهام على روبوت WidowX الفعلي أداءً يتفوق على الأداء الحالي، حيث تفوق على OpenVLA بنسبة 10% في SimplerEnv و3.5 مرة في المهام الروبوتية الفعلية، كما أظهرت قدرته على التعميم بشكل قوي عبر أجساد وأنماط مختلفة. للتحقق أكثر من فعالية ومنهجيتنا العامة، نقدم نموذج VLA مضغوطًا يستند إلى Phi-3-Vision بحجم 4 مليار معلمة، تم تدريبه مسبقًا على Open-X-Embodiment وإعادة تدريبه على مجموعة البيانات الخاصة بنا، والذي ينافس النموذج الأساسي OpenVLA بحجم 7 مليار معلمة بينما يحسن كفاءة الاستدلال بشكل كبير.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Command Palette

TraceVLA: تحسين الوعي المكاني-الزماني للسياسات الروبوتية العامة من خلال التحفيز البصري للمسارات

Ruijie Zheng Yongyuan Liang Shuaiyi Huang Jianfeng Gao Hal Daumé III Andrey Kolobov Furong Huang Jianwei Yang

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

TraceVLA: تحسين الوعي المكاني-الزماني للسياسات الروبوتية العامة من خلال التحفيز البصري للمسارات

Ruijie Zheng Yongyuan Liang Shuaiyi Huang Jianfeng Gao Hal Daumé III Andrey Kolobov Furong Huang Jianwei Yang

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

TraceVLA: تحسين الوعي المكاني-الزماني للسياسات الروبوتية العامة من خلال التحفيز البصري للمسارات

Ruijie Zheng Yongyuan Liang Shuaiyi Huang Jianfeng Gao Hal Daumé III Andrey Kolobov Furong Huang Jianwei Yang

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters