HyperAIHyperAI

Command Palette

Search for a command to run...

البكسيلات والأنماط، ولكن لا شعر: لرؤية العالم كما يراه البشر

الملخص

تحقيق الإدراك والاستدلال المماثل للإنسان في نماذج اللغة الكبيرة متعددة الوسائط (MLLMs) يظل تحديًا رئيسيًا في الذكاء الاصطناعي. على الرغم من أن الأبحاث الحديثة ركزت بشكل رئيسي على تحسين قدرات الاستدلال في نماذج MLLMs، إلا أن سؤالًا أساسيًا يبقى مفتوحًا: هل يمكن لنماذج MLLMs أن تدرك العالم بنفس الطريقة التي يدركها البشر؟ تنتقل هذه الورقة تركيزها من الاستدلال إلى الإدراك. بدلًا من إنشاء معايير تقييم مخصصة للاستدلال، نقدم اختبار العين التورينغ (TET)، وهو معيار تقييم يركز على الإدراك، يتكون من أربع مهام تشخيصية تقيّم أداء نماذج MLLMs على الصور الاصطناعية التي يتعامل معها البشر بشكل طبيعي. تشير نتائجنا إلى أن نماذج MLLMs الحديثة تواجه فشلًا كارثيًا في هذه المهام الإدراكية التي تبدو بسيطة للبشر. لا تنجح التعلم في السياق (in-context learning) ولا التدريب على النموذج اللغوي (language backbone) - الذي كان فعالًا في المعايير السابقة - في تحسين الأداء في مهامنا، بينما يُمكن لتعديل البرج البصري (vision tower) أن يتيح التكيف السريع، مما يشير إلى أن معيارنا يمثل تحديًا للقدرة على التعميم في البرج البصري، وليس في معرفة ومهارات الاستدلال الخاصة بالنموذج اللغوي - وهو فجوة رئيسية بين نماذج MLLMs الحالية وإدراك البشر. نُعلن في هذه الإصدار عن مجموعة ممثّلة من مهام TET، وسنقوم بإدخال مهام وأساليب أكثر تنوعًا في الدراسات المستقبلية لتعزيز قدرة التعميم البصري.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
البكسيلات والأنماط، ولكن لا شعر: لرؤية العالم كما يراه البشر | مستندات | HyperAI