الملخص

تشير القدرات المُحَدَّثَة (Embodied Capabilities) إلى مجموعة من القدرات الأساسية التي تمكن الوكيل من إدراك العالم المادي، وفهمه، والتفاعل معه. وعلى الرغم من أن النماذج الكبيرة متعددة الوسائط للغة (MLLMs) تُظهر إمكانات كبيرة كوكالات مُحَدَّثة، إلا أن التقييم الشامل والمنهجي لقدراتها المُحَدَّثة ما زال مجالًا غير مُستكشَفٍ بشكل كافٍ، نظرًا لأن المعايير الحالية تركز بشكل رئيسي على مجالات محددة مثل التخطيط أو الفهم المكاني. ولسد هذه الفجوة، نُقدِّم BEAR، وهي معيار شامل ودقيق يقيّم نماذج MLLMs من حيث القدرات المُحَدَّثة الأساسية. يتكوّن BEAR من 4,469 إدخالًا متناوبًا بين الصور والفيديوهات والنصوص، موزعة على 14 مجالًا ضمن 6 فئات، تشمل مهامًا من مستوى منخفض (مثل التحديد الدقيق) إلى مستوى عالٍ (مثل التخطيط). أظهرت نتائج التقييم الواسعة لـ 20 نموذجًا متميزًا من MLLMs قيودًا مستمرة في جميع مجالات القدرات المُحَدَّثة. ولمعالجة هذه النقص، نقترح BEAR-Agent، وهو وكيل متعدد الوسائط قابِل للحوار، يدمج نماذج الرؤية المُدرَّبة مسبقًا لتعزيز قدرات MLLMs في الإدراك، والفهم ثلاثي الأبعاد، والتخطيط. وقد أدى هذا النظام إلى تحسين ملحوظ في أداء MLLMs عبر مجموعة متنوعة من القدرات المُحَدَّثة على معيار BEAR، محقِّقًا مكسبًا مطلقًا بنسبة 9.12%، وتحسينًا نسبيًا بنسبة 17.5% بالنسبة لـ GPT-5. علاوة على ذلك، تُشير تجاربنا إلى أن تحسين القدرات المُحَدَّثة لـ MLLMs يمكن أن يُفيد في تنفيذ المهام المُحَدَّثة داخل بيئات محاكاة. موقع المشروع: https://bear-official66.github.io/

ملف PDF المصدر عرض الكود

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Command Palette

BEAR: تقييم وتحسين النماذج اللغوية متعددة الوسائط لقدرات التمثيل الذري

Yu Qi Haibo Zhao Ziyu Guo Siyuan Ma Ziyan Chen Yaokun Han Renrui Zhang Zitiantao Lin Shiji Xin Yijian Huang10 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

BEAR: تقييم وتحسين النماذج اللغوية متعددة الوسائط لقدرات التمثيل الذري

Yu Qi Haibo Zhao Ziyu Guo Siyuan Ma Ziyan Chen Yaokun Han Renrui Zhang Zitiantao Lin Shiji Xin Yijian Huang10 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

BEAR: تقييم وتحسين النماذج اللغوية متعددة الوسائط لقدرات التمثيل الذري

Yu Qi Haibo Zhao Ziyu Guo Siyuan Ma Ziyan Chen Yaokun Han Renrui Zhang Zitiantao Lin Shiji Xin Yijian Huang10 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Yu Qi Haibo Zhao Ziyu Guo Siyuan Ma Ziyan Chen Yaokun Han Renrui Zhang Zitiantao Lin Shiji Xin Yijian Huang

Yu Qi Haibo Zhao Ziyu Guo Siyuan Ma Ziyan Chen Yaokun Han Renrui Zhang Zitiantao Lin Shiji Xin Yijian Huang

Yu Qi Haibo Zhao Ziyu Guo Siyuan Ma Ziyan Chen Yaokun Han Renrui Zhang Zitiantao Lin Shiji Xin Yijian Huang