البكسيلات والأنماط، ولكن لا شعر: لرؤية العالم كما يراه البشر

تحقيق الإدراك والاستدلال المماثل للإنسان في نماذج اللغة الكبيرة متعددة الوسائط (MLLMs) يظل تحديًا رئيسيًا في الذكاء الاصطناعي. على الرغم من أن الأبحاث الحديثة ركزت بشكل رئيسي على تحسين قدرات الاستدلال في نماذج MLLMs، إلا أن سؤالًا أساسيًا يبقى مفتوحًا: هل يمكن لنماذج MLLMs أن تدرك العالم بنفس الطريقة التي يدركها البشر؟ تنتقل هذه الورقة تركيزها من الاستدلال إلى الإدراك. بدلًا من إنشاء معايير تقييم مخصصة للاستدلال، نقدم اختبار العين التورينغ (TET)، وهو معيار تقييم يركز على الإدراك، يتكون من أربع مهام تشخيصية تقيّم أداء نماذج MLLMs على الصور الاصطناعية التي يتعامل معها البشر بشكل طبيعي. تشير نتائجنا إلى أن نماذج MLLMs الحديثة تواجه فشلًا كارثيًا في هذه المهام الإدراكية التي تبدو بسيطة للبشر. لا تنجح التعلم في السياق (in-context learning) ولا التدريب على النموذج اللغوي (language backbone) - الذي كان فعالًا في المعايير السابقة - في تحسين الأداء في مهامنا، بينما يُمكن لتعديل البرج البصري (vision tower) أن يتيح التكيف السريع، مما يشير إلى أن معيارنا يمثل تحديًا للقدرة على التعميم في البرج البصري، وليس في معرفة ومهارات الاستدلال الخاصة بالنموذج اللغوي - وهو فجوة رئيسية بين نماذج MLLMs الحالية وإدراك البشر. نُعلن في هذه الإصدار عن مجموعة ممثّلة من مهام TET، وسنقوم بإدخال مهام وأساليب أكثر تنوعًا في الدراسات المستقبلية لتعزيز قدرة التعميم البصري.