الملخص

تحقيق الإدراك والاستدلال المماثل للإنسان في نماذج اللغة الكبيرة متعددة الوسائط (MLLMs) يظل تحديًا رئيسيًا في الذكاء الاصطناعي. على الرغم من أن الأبحاث الحديثة ركزت بشكل رئيسي على تحسين قدرات الاستدلال في نماذج MLLMs، إلا أن سؤالًا أساسيًا يبقى مفتوحًا: هل يمكن لنماذج MLLMs أن تدرك العالم بنفس الطريقة التي يدركها البشر؟ تنتقل هذه الورقة تركيزها من الاستدلال إلى الإدراك. بدلًا من إنشاء معايير تقييم مخصصة للاستدلال، نقدم اختبار العين التورينغ (TET)، وهو معيار تقييم يركز على الإدراك، يتكون من أربع مهام تشخيصية تقيّم أداء نماذج MLLMs على الصور الاصطناعية التي يتعامل معها البشر بشكل طبيعي. تشير نتائجنا إلى أن نماذج MLLMs الحديثة تواجه فشلًا كارثيًا في هذه المهام الإدراكية التي تبدو بسيطة للبشر. لا تنجح التعلم في السياق (in-context learning) ولا التدريب على النموذج اللغوي (language backbone) - الذي كان فعالًا في المعايير السابقة - في تحسين الأداء في مهامنا، بينما يُمكن لتعديل البرج البصري (vision tower) أن يتيح التكيف السريع، مما يشير إلى أن معيارنا يمثل تحديًا للقدرة على التعميم في البرج البصري، وليس في معرفة ومهارات الاستدلال الخاصة بالنموذج اللغوي - وهو فجوة رئيسية بين نماذج MLLMs الحالية وإدراك البشر. نُعلن في هذه الإصدار عن مجموعة ممثّلة من مهام TET، وسنقوم بإدخال مهام وأساليب أكثر تنوعًا في الدراسات المستقبلية لتعزيز قدرة التعميم البصري.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Command Palette

البكسيلات والأنماط، ولكن لا شعر: لرؤية العالم كما يراه البشر

Hongcheng Gao Zihao Huang Lin Xu Jingyi Tang Xinhao Li Yue Liu Haoyang Li Taihang Hu Minhua Lin Xinlong Yang4 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

البكسيلات والأنماط، ولكن لا شعر: لرؤية العالم كما يراه البشر

Hongcheng Gao Zihao Huang Lin Xu Jingyi Tang Xinhao Li Yue Liu Haoyang Li Taihang Hu Minhua Lin Xinlong Yang4 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

البكسيلات والأنماط، ولكن لا شعر: لرؤية العالم كما يراه البشر

Hongcheng Gao Zihao Huang Lin Xu Jingyi Tang Xinhao Li Yue Liu Haoyang Li Taihang Hu Minhua Lin Xinlong Yang4 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Hongcheng Gao Zihao Huang Lin Xu Jingyi Tang Xinhao Li Yue Liu Haoyang Li Taihang Hu Minhua Lin Xinlong Yang

Hongcheng Gao Zihao Huang Lin Xu Jingyi Tang Xinhao Li Yue Liu Haoyang Li Taihang Hu Minhua Lin Xinlong Yang

Hongcheng Gao Zihao Huang Lin Xu Jingyi Tang Xinhao Li Yue Liu Haoyang Li Taihang Hu Minhua Lin Xinlong Yang