HyperAIHyperAI

Command Palette

Search for a command to run...

نحو التلاعب الروبوتي المعمم بين الرؤية واللغة: معيار وسياسة ثلاثية الأبعاد موجهة بالنموذج اللغوي الكبير (LLM)

Ricardo Garcia Shizhe Chen Cordelia Schmid

الملخص

تظل تعميم السياسات الروبوتية المشروطة باللغة لمهام جديدة تحديًا كبيرًا، معرقلةً بسبب نقص مقاييس المحاكاة المناسبة. في هذا البحث، نعالج هذه الفجوة من خلال تقديم GemBench، وهو مقاييس جديد لتقييم قدرات التعميم للسياسات الروبوتية التي تعتمد على الرؤية واللغة. يضم GemBench سبعة بدائيات عمل عامة وأربعة مستويات للتعميم، تشمل المواقع الجديدة، الأشياء الصلبة والمفصلية، والمهام المعقدة ذات الأفق الطويل. نقيم أحدث الأساليب على GemBench ونقدم أيضًا طريقة جديدة. يستفيد نهجنا 3D-LOTUS من المعلومات ثلاثية الأبعاد الغنية للتنبؤ بالأعمال المشروطة باللغة. بينما يتفوق 3D-LOTUS في الكفاءة والأداء على المهام المعروفة، فإنه يواجه صعوبات مع المهام الجديدة. لمعالجة هذا الأمر، نقدم 3D-LOTUS++، وهو إطار يدمج قدرات التخطيط الحركي لـ 3D-LOTUS مع قدرات التخطيط للمهام لدى النماذج اللغوية الكبيرة (LLMs) ودقة ربط الأشياء لدى النماذج البصرية اللغوية (VLMs). يحقق 3D-LOTUS++ أداءً رائدًا في المهام الجديدة ضمن GemBench، مما يضع معيارًا جديدًا للتعميم في التلاعب الروبوتي. يمكن الوصول إلى المقاييس والرموز والنماذج المدربة عبر الرابط: https://www.di.ens.fr/willow/research/gembench/.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp