Open6DOR: تقييم إعادة ترتيب الكائنات ذات 6 درجات من الحرية باستخدام تعليمات مفتوحة ونهج يعتمد على نموذج التعلم البصري-اللغوي

في هذه الدراسة، نُقدّم خطوة رائدة في إنشاء معيار ونهج لعملية إعادة ترتيب الأشياء ذات 6 درجات من الحرية (Open6DOR) على مستوى الطاولة (table-top). بشكل خاص، قمنا بجمع مجموعة بيانات اصطناعية تتضمن أكثر من 200 كائنًا، وصممنا بعناية أكثر من 2400 مهمة إعادة ترتيب Open6DOR. تُقسَّم هذه المهام إلى ثلاث مسارات: مسار الموضع (Position-track)، ومسار الدوران (Rotation-track)، ومسار 6 درجات من الحرية (6-DoF-track)، بهدف تقييم وكفاءة الوكلاء المُتَنَقِّلِين (embodied agents) في التنبؤ بمواقع واتجاهات الأشياء المستهدفة. بالإضافة إلى ذلك، نقترح منهجًا مبنيًا على نموذج اللغة والرؤية (VLM) لـ Open6DOR، يُسمّى Open6DOR-GPT، الذي يزوّد GPT-4V بالوعي بالبعد الثلاثي (3D-awareness) والمساعدة من خلال المحاكاة، مع الاستفادة من قوته في التعميم (generalizability) واتباع التعليمات (instruction-following) في هذا السياق. قارنا الوكلاء المُتَنَقِّلِين الحاليين بأداء Open6DOR-GPT على المعيار المُقترح لـ Open6DOR، ووجدنا أن Open6DOR-GPT يحقق أفضل أداء مُسجَّل حتى الآن (state-of-the-art). كما أظهرنا أداءً مُبهرًا لـ Open6DOR-GPT في تجارب واقعية متنوعة. نخطط لإطلاق النسخة النهائية من المعيار، إلى جانب طريقة التحسين المُطوَّرة لدينا، في أوائل سبتمبر، ونُوصي بالانتظار حتى ذلك الحين لتحميل مجموعة البيانات.