HyperAIHyperAI

Command Palette

Search for a command to run...

منذ شهر واحد

ما مدى جودة النماذج الأساسية في الاستدلال الجسدي التدريجي؟

Dinura Dissanayake Ahmed Heakl Omkar Thawakar Noor Ahsan et al

ما مدى جودة النماذج الأساسية في الاستدلال الجسدي التدريجي؟

الملخص

يجب على الوكالات المُمثَّلة التي تعمل في العالم المادي اتخاذ قرارات لا تقتصر فقط على الفعالية، بل أيضًا على السلامة، والاتساق المكاني، والاندماج في السياق. وعلى الرغم من التقدم الأخير في نماذج التوسع متعددة الوسائط الكبيرة (LMMs)، التي أظهرت قدرات واعدة في فهم الصور وإنتاج اللغة، إلا أن قدرتها على إجراء استنتاجات منظمة للوظائف الواقعية المُمثَّلة ما زالت غير مُستكشفة بشكل كافٍ. وفي هذا العمل، نهدف إلى فهم مدى كفاءة النماذج الأساسية في أداء استنتاجات خطوة بخطوة داخل البيئات المُمثَّلة. ولتحقيق ذلك، نقترح معيارًا يُسمى "الاستدلال المُمثَّل بالنموذج الأساسي" (FoMER)، المصمم لتقييم قدرات النماذج الكبيرة متعددة الوسائط (LMMs) في سيناريوهات اتخاذ قرارات معقدة مُمثَّلة. يشمل معيارنا مجموعة متنوعة من المهام التي تتطلب من الوكالات تفسير الملاحظات متعددة الوسائط، واستنتاج القيود الفيزيائية والسلامة، وإصدار إجراءات صحيحة التالية بلغة طبيعية. ونقدّم (أ) مجموعة واسعة من المهام المُمثَّلة، مُختارة بدقة، (ب) إطار تقييم جديد يفصل بين التأصيل الاحساسي والتفكير في الإجراءات، و(ج) تحليلًا تجريبيًا لعدة نماذج متقدمة من LMMs ضمن هذا السياق. يضم معيارنا أكثر من 1100 عينة، تشمل تفكيرًا خطوة بخطوة مفصلًا عبر 10 مهام و8 هياكل مُمثَّلة، تغطي ثلاث أنواع مختلفة من الروبوتات. وتُظهر نتائجنا إمكانات النماذج الكبيرة متعددة الوسائط في الاستدلال المُمثَّل، إلى جانب القيود الحالية، مما يُشير إلى التحديات الرئيسية والفرص المستقبلية في بحوث الذكاء الروبوتي. وستُتاح بياناتنا وشفراتنا البرمجية للجمهور بشكل عام.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
ما مدى جودة النماذج الأساسية في الاستدلال الجسدي التدريجي؟ | الأوراق البحثية | HyperAI