HyperAIHyperAI

Command Palette

Search for a command to run...

منذ يوم واحد

PhysToolBench: تقييم فهم الأدوات الفيزيائية للنماذج اللغوية الكبيرة متعددة الوسائط

Zixin Zhang Kanghao Chen Xingwang Lin Lutao Jiang Xu Zheng Yuanhuiyi Lyu Litao Guo Yinchuan Li Ying-Cong Chen

PhysToolBench: تقييم فهم الأدوات الفيزيائية للنماذج اللغوية الكبيرة متعددة الوسائط

الملخص

يمثل القدرة على استخدام الأدوات، وفهمها، وإنشاؤها، علامة مميزة للذكاء البشري، حيث يمكّن الإنسان من التفاعل المتطور مع العالم المادي. ولتحقيق التعددية الحقيقية، يجب أن تمتلك أي وكيل ذكي عام مهارات أساسية مماثلة. وعلى الرغم من أن النماذج الكبيرة متعددة الوسائط (MLLMs) الحديثة تستفيد من معرفتها الشاملة بالمعارف المشتركة لإجراء التخطيط على مستوى عالٍ في الذكاء الاصطناعي المُجسَّد، وفي النماذج اللاحقة من نوع رؤية-لغة-عمل (VLA)، إلا أن مدى فهمها الفعلي للأدوات المادية ما زال غير مُقاس. ولسد هذه الفجوة، نقدّم "PhysToolBench"، أول معيار مخصص لتقييم فهم النماذج الكبيرة متعددة الوسائط للأدوات المادية. يُبنى معيارنا كمجموعة بيانات لأسئلة واجابات بصرية (VQA) تضم أكثر من 1000 زوج من الصور والنصوص. ويقيّم الأداء عبر ثلاث مستويات مختلفة من الصعوبة: (1) تمييز الأدوات: يتطلب التعرف على الوظيفة الأساسية للأداة. (2) فهم الأدوات: يختبر القدرة على إدراك المبادئ الأساسية التي تقوم عليها عملية عمل الأداة. (3) إنشاء الأدوات: يُحدّد تحديًا للنموذج بصنع أداة جديدة من الأجسام المحيطة عند عدم توفر الخيارات التقليدية. وقد كشف تقييمنا الشامل لـ 32 نموذجًا من النماذج الكبيرة متعددة الوسائط – تشمل نماذج مملوكة، ونماذج مفتوحة المصدر، ونماذج متخصصة في المهام المُجسَّدة، بالإضافة إلى النوى الأساسية للنماذج في مجالات الرؤية-اللغة-العمل – عن وجود نقص كبير في فهم الأدوات. علاوة على ذلك، نقدّم تحليلًا معمقًا ونُقدّم حلولًا أولية. ويُتاح الكود والبيانات للجمهور بشكل مفتوح.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
PhysToolBench: تقييم فهم الأدوات الفيزيائية للنماذج اللغوية الكبيرة متعددة الوسائط | الأوراق البحثية | HyperAI