نهج معرفي لاستكشاف واجهة الإدراك والاستدلال في نماذج اللغة والرؤية المتعددة الوسائط

تعد تحديات أساسية في مجال الذكاء الاصطناعي فهم الآليات المعرفية الكامنة وراء الاستدلال البصري في النماذج المعقدة مثل نماذج الرؤية واللغة (VLMs). كيف تدمج هذه النماذج الإدراك البصري مع الفكر المجرد، خاصة عند الاستدلال على صور متعددة أو الحاجة إلى فهم تركيبي دقيق؟ مستوحاة من علم الإدراك، تقدم هذه الورقة إطارًا تقييميًا منظمًا يستخدم مهام استدلال بصرية متنوعة - مشاكل بونغارد (BPs) ووينوغراوند - لتفكيك واجهة الإدراك والاستدلال في نماذج الرؤية واللغة. نقترح ثلاثة أنماط تقييم مختلفة تعكس استراتيجيات حل المشكلات البشرية: التعلم المباشر للقواعد البصرية (DVRL؛ المعالجة الشمولية)، التعلم الاستدلالي للقواعد (DRL؛ استخراج القواعد وتطبيقها)، والتحليل المكوني (CA؛ التحليل التفكيكي عبر وصفات نصية مستقلة عن المهمة). تتغير هذه الأنماط بشكل منهجي العبء المعرفي وتستكشف مراحل المعالجة. وبشكل لافت، يمكّن التحليل المكوني (CA) من تقييم الاستدلال على صور متعددة حتى بالنسبة للمعماريات التي تعتمد على صورة واحدة فقط ويعزل الاستدلال عن الإدراك من خلال العمل على الوصفات النصية. عند تطبيق هذا الإطار، نظهر أن التحليل المكوني (CA)، الذي يستفيد من نماذج اللغة القوية للاستدلال على وصفات غنية ومولدة بشكل مستقل، يحقق أداءً جديدًا رائدًا (SOTA) في مقاييس صعبة مثل بونغارد-عالَم مفتوح، بونغارد-تفاعل الإنسان بالأشياء، ووينوغراوند. تؤكد دراسات الحذف أن الاستدلال يتحسن بشكل كبير عندما يتم تخفيف التحديات الإدراكية، مما يكشف عن قنينة رقبة إدراكية حاسمة. يقدم إطارنا أداة تشخيص قيمة ويقترح أن فصل الإدراك (عبر وصفات غنية مستقلة عن المهمة) عن الاستدلال هو اتجاه واعد لتحقيق ذكاء بصري ثابت ومعمم.