Command Palette
Search for a command to run...
BEAR: تقييم وتحسين النماذج اللغوية متعددة الوسائط لقدرات التمثيل الذري

الملخص
تشير القدرات المُحَدَّثَة (Embodied Capabilities) إلى مجموعة من القدرات الأساسية التي تمكن الوكيل من إدراك العالم المادي، وفهمه، والتفاعل معه. وعلى الرغم من أن النماذج الكبيرة متعددة الوسائط للغة (MLLMs) تُظهر إمكانات كبيرة كوكالات مُحَدَّثة، إلا أن التقييم الشامل والمنهجي لقدراتها المُحَدَّثة ما زال مجالًا غير مُستكشَفٍ بشكل كافٍ، نظرًا لأن المعايير الحالية تركز بشكل رئيسي على مجالات محددة مثل التخطيط أو الفهم المكاني. ولسد هذه الفجوة، نُقدِّم BEAR، وهي معيار شامل ودقيق يقيّم نماذج MLLMs من حيث القدرات المُحَدَّثة الأساسية. يتكوّن BEAR من 4,469 إدخالًا متناوبًا بين الصور والفيديوهات والنصوص، موزعة على 14 مجالًا ضمن 6 فئات، تشمل مهامًا من مستوى منخفض (مثل التحديد الدقيق) إلى مستوى عالٍ (مثل التخطيط). أظهرت نتائج التقييم الواسعة لـ 20 نموذجًا متميزًا من MLLMs قيودًا مستمرة في جميع مجالات القدرات المُحَدَّثة. ولمعالجة هذه النقص، نقترح BEAR-Agent، وهو وكيل متعدد الوسائط قابِل للحوار، يدمج نماذج الرؤية المُدرَّبة مسبقًا لتعزيز قدرات MLLMs في الإدراك، والفهم ثلاثي الأبعاد، والتخطيط. وقد أدى هذا النظام إلى تحسين ملحوظ في أداء MLLMs عبر مجموعة متنوعة من القدرات المُحَدَّثة على معيار BEAR، محقِّقًا مكسبًا مطلقًا بنسبة 9.12%، وتحسينًا نسبيًا بنسبة 17.5% بالنسبة لـ GPT-5. علاوة على ذلك، تُشير تجاربنا إلى أن تحسين القدرات المُحَدَّثة لـ MLLMs يمكن أن يُفيد في تنفيذ المهام المُحَدَّثة داخل بيئات محاكاة. موقع المشروع: https://bear-official66.github.io/
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.