Command Palette
Search for a command to run...
Dinura Dissanayake Ahmed Heakl Omkar Thawakar Noor Ahsan et al

الملخص
يجب على الوكالات المُمثَّلة التي تعمل في العالم المادي اتخاذ قرارات لا تقتصر فقط على الفعالية، بل أيضًا على السلامة، والاتساق المكاني، والاندماج في السياق. وعلى الرغم من التقدم الأخير في نماذج التوسع متعددة الوسائط الكبيرة (LMMs)، التي أظهرت قدرات واعدة في فهم الصور وإنتاج اللغة، إلا أن قدرتها على إجراء استنتاجات منظمة للوظائف الواقعية المُمثَّلة ما زالت غير مُستكشفة بشكل كافٍ. وفي هذا العمل، نهدف إلى فهم مدى كفاءة النماذج الأساسية في أداء استنتاجات خطوة بخطوة داخل البيئات المُمثَّلة. ولتحقيق ذلك، نقترح معيارًا يُسمى "الاستدلال المُمثَّل بالنموذج الأساسي" (FoMER)، المصمم لتقييم قدرات النماذج الكبيرة متعددة الوسائط (LMMs) في سيناريوهات اتخاذ قرارات معقدة مُمثَّلة. يشمل معيارنا مجموعة متنوعة من المهام التي تتطلب من الوكالات تفسير الملاحظات متعددة الوسائط، واستنتاج القيود الفيزيائية والسلامة، وإصدار إجراءات صحيحة التالية بلغة طبيعية. ونقدّم (أ) مجموعة واسعة من المهام المُمثَّلة، مُختارة بدقة، (ب) إطار تقييم جديد يفصل بين التأصيل الاحساسي والتفكير في الإجراءات، و(ج) تحليلًا تجريبيًا لعدة نماذج متقدمة من LMMs ضمن هذا السياق. يضم معيارنا أكثر من 1100 عينة، تشمل تفكيرًا خطوة بخطوة مفصلًا عبر 10 مهام و8 هياكل مُمثَّلة، تغطي ثلاث أنواع مختلفة من الروبوتات. وتُظهر نتائجنا إمكانات النماذج الكبيرة متعددة الوسائط في الاستدلال المُمثَّل، إلى جانب القيود الحالية، مما يُشير إلى التحديات الرئيسية والفرص المستقبلية في بحوث الذكاء الروبوتي. وستُتاح بياناتنا وشفراتنا البرمجية للجمهور بشكل عام.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.