نحو التلاعب الروبوتي المعمم بين الرؤية واللغة: معيار وسياسة ثلاثية الأبعاد موجهة بالنموذج اللغوي الكبير (LLM)

تظل تعميم السياسات الروبوتية المشروطة باللغة لمهام جديدة تحديًا كبيرًا، معرقلةً بسبب نقص مقاييس المحاكاة المناسبة. في هذا البحث، نعالج هذه الفجوة من خلال تقديم GemBench، وهو مقاييس جديد لتقييم قدرات التعميم للسياسات الروبوتية التي تعتمد على الرؤية واللغة. يضم GemBench سبعة بدائيات عمل عامة وأربعة مستويات للتعميم، تشمل المواقع الجديدة، الأشياء الصلبة والمفصلية، والمهام المعقدة ذات الأفق الطويل. نقيم أحدث الأساليب على GemBench ونقدم أيضًا طريقة جديدة. يستفيد نهجنا 3D-LOTUS من المعلومات ثلاثية الأبعاد الغنية للتنبؤ بالأعمال المشروطة باللغة. بينما يتفوق 3D-LOTUS في الكفاءة والأداء على المهام المعروفة، فإنه يواجه صعوبات مع المهام الجديدة. لمعالجة هذا الأمر، نقدم 3D-LOTUS++، وهو إطار يدمج قدرات التخطيط الحركي لـ 3D-LOTUS مع قدرات التخطيط للمهام لدى النماذج اللغوية الكبيرة (LLMs) ودقة ربط الأشياء لدى النماذج البصرية اللغوية (VLMs). يحقق 3D-LOTUS++ أداءً رائدًا في المهام الجديدة ضمن GemBench، مما يضع معيارًا جديدًا للتعميم في التلاعب الروبوتي. يمكن الوصول إلى المقاييس والرموز والنماذج المدربة عبر الرابط: https://www.di.ens.fr/willow/research/gembench/.