الملخص

يمثل القدرة على استخدام الأدوات، وفهمها، وإنشاؤها، علامة مميزة للذكاء البشري، حيث يمكّن الإنسان من التفاعل المتطور مع العالم المادي. ولتحقيق التعددية الحقيقية، يجب أن تمتلك أي وكيل ذكي عام مهارات أساسية مماثلة. وعلى الرغم من أن النماذج الكبيرة متعددة الوسائط (MLLMs) الحديثة تستفيد من معرفتها الشاملة بالمعارف المشتركة لإجراء التخطيط على مستوى عالٍ في الذكاء الاصطناعي المُجسَّد، وفي النماذج اللاحقة من نوع رؤية-لغة-عمل (VLA)، إلا أن مدى فهمها الفعلي للأدوات المادية ما زال غير مُقاس. ولسد هذه الفجوة، نقدّم "PhysToolBench"، أول معيار مخصص لتقييم فهم النماذج الكبيرة متعددة الوسائط للأدوات المادية. يُبنى معيارنا كمجموعة بيانات لأسئلة واجابات بصرية (VQA) تضم أكثر من 1000 زوج من الصور والنصوص. ويقيّم الأداء عبر ثلاث مستويات مختلفة من الصعوبة: (1) تمييز الأدوات: يتطلب التعرف على الوظيفة الأساسية للأداة. (2) فهم الأدوات: يختبر القدرة على إدراك المبادئ الأساسية التي تقوم عليها عملية عمل الأداة. (3) إنشاء الأدوات: يُحدّد تحديًا للنموذج بصنع أداة جديدة من الأجسام المحيطة عند عدم توفر الخيارات التقليدية. وقد كشف تقييمنا الشامل لـ 32 نموذجًا من النماذج الكبيرة متعددة الوسائط – تشمل نماذج مملوكة، ونماذج مفتوحة المصدر، ونماذج متخصصة في المهام المُجسَّدة، بالإضافة إلى النوى الأساسية للنماذج في مجالات الرؤية-اللغة-العمل – عن وجود نقص كبير في فهم الأدوات. علاوة على ذلك، نقدّم تحليلًا معمقًا ونُقدّم حلولًا أولية. ويُتاح الكود والبيانات للجمهور بشكل مفتوح.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Command Palette

PhysToolBench: تقييم فهم الأدوات الفيزيائية للنماذج اللغوية الكبيرة متعددة الوسائط

Zixin Zhang Kanghao Chen Xingwang Lin Lutao Jiang Xu Zheng Yuanhuiyi Lyu Litao Guo Yinchuan Li Ying-Cong Chen

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

PhysToolBench: تقييم فهم الأدوات الفيزيائية للنماذج اللغوية الكبيرة متعددة الوسائط

Zixin Zhang Kanghao Chen Xingwang Lin Lutao Jiang Xu Zheng Yuanhuiyi Lyu Litao Guo Yinchuan Li Ying-Cong Chen

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

PhysToolBench: تقييم فهم الأدوات الفيزيائية للنماذج اللغوية الكبيرة متعددة الوسائط

Zixin Zhang Kanghao Chen Xingwang Lin Lutao Jiang Xu Zheng Yuanhuiyi Lyu Litao Guo Yinchuan Li Ying-Cong Chen

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters