HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 21 أيام

BEAR: تقييم وتحسين النماذج اللغوية متعددة الوسائط لقدرات التمثيل الذري

BEAR: تقييم وتحسين النماذج اللغوية متعددة الوسائط لقدرات التمثيل الذري

الملخص

تشير القدرات المُحَدَّثَة (Embodied Capabilities) إلى مجموعة من القدرات الأساسية التي تمكن الوكيل من إدراك العالم المادي، وفهمه، والتفاعل معه. وعلى الرغم من أن النماذج الكبيرة متعددة الوسائط للغة (MLLMs) تُظهر إمكانات كبيرة كوكالات مُحَدَّثة، إلا أن التقييم الشامل والمنهجي لقدراتها المُحَدَّثة ما زال مجالًا غير مُستكشَفٍ بشكل كافٍ، نظرًا لأن المعايير الحالية تركز بشكل رئيسي على مجالات محددة مثل التخطيط أو الفهم المكاني. ولسد هذه الفجوة، نُقدِّم BEAR، وهي معيار شامل ودقيق يقيّم نماذج MLLMs من حيث القدرات المُحَدَّثة الأساسية. يتكوّن BEAR من 4,469 إدخالًا متناوبًا بين الصور والفيديوهات والنصوص، موزعة على 14 مجالًا ضمن 6 فئات، تشمل مهامًا من مستوى منخفض (مثل التحديد الدقيق) إلى مستوى عالٍ (مثل التخطيط). أظهرت نتائج التقييم الواسعة لـ 20 نموذجًا متميزًا من MLLMs قيودًا مستمرة في جميع مجالات القدرات المُحَدَّثة. ولمعالجة هذه النقص، نقترح BEAR-Agent، وهو وكيل متعدد الوسائط قابِل للحوار، يدمج نماذج الرؤية المُدرَّبة مسبقًا لتعزيز قدرات MLLMs في الإدراك، والفهم ثلاثي الأبعاد، والتخطيط. وقد أدى هذا النظام إلى تحسين ملحوظ في أداء MLLMs عبر مجموعة متنوعة من القدرات المُحَدَّثة على معيار BEAR، محقِّقًا مكسبًا مطلقًا بنسبة 9.12%، وتحسينًا نسبيًا بنسبة 17.5% بالنسبة لـ GPT-5. علاوة على ذلك، تُشير تجاربنا إلى أن تحسين القدرات المُحَدَّثة لـ MLLMs يمكن أن يُفيد في تنفيذ المهام المُحَدَّثة داخل بيئات محاكاة. موقع المشروع: https://bear-official66.github.io/

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
BEAR: تقييم وتحسين النماذج اللغوية متعددة الوسائط لقدرات التمثيل الذري | الأوراق البحثية | HyperAI