HyperAIHyperAI

Command Palette

Search for a command to run...

نهج معرفي لاستكشاف واجهة الإدراك والاستدلال في نماذج اللغة والرؤية المتعددة الوسائط

Mohit Vaishnav Tanel Tammet

الملخص

تعد تحديات أساسية في مجال الذكاء الاصطناعي فهم الآليات المعرفية الكامنة وراء الاستدلال البصري في النماذج المعقدة مثل نماذج الرؤية واللغة (VLMs). كيف تدمج هذه النماذج الإدراك البصري مع الفكر المجرد، خاصة عند الاستدلال على صور متعددة أو الحاجة إلى فهم تركيبي دقيق؟ مستوحاة من علم الإدراك، تقدم هذه الورقة إطارًا تقييميًا منظمًا يستخدم مهام استدلال بصرية متنوعة - مشاكل بونغارد (BPs) ووينوغراوند - لتفكيك واجهة الإدراك والاستدلال في نماذج الرؤية واللغة. نقترح ثلاثة أنماط تقييم مختلفة تعكس استراتيجيات حل المشكلات البشرية: التعلم المباشر للقواعد البصرية (DVRL؛ المعالجة الشمولية)، التعلم الاستدلالي للقواعد (DRL؛ استخراج القواعد وتطبيقها)، والتحليل المكوني (CA؛ التحليل التفكيكي عبر وصفات نصية مستقلة عن المهمة). تتغير هذه الأنماط بشكل منهجي العبء المعرفي وتستكشف مراحل المعالجة. وبشكل لافت، يمكّن التحليل المكوني (CA) من تقييم الاستدلال على صور متعددة حتى بالنسبة للمعماريات التي تعتمد على صورة واحدة فقط ويعزل الاستدلال عن الإدراك من خلال العمل على الوصفات النصية. عند تطبيق هذا الإطار، نظهر أن التحليل المكوني (CA)، الذي يستفيد من نماذج اللغة القوية للاستدلال على وصفات غنية ومولدة بشكل مستقل، يحقق أداءً جديدًا رائدًا (SOTA) في مقاييس صعبة مثل بونغارد-عالَم مفتوح، بونغارد-تفاعل الإنسان بالأشياء، ووينوغراوند. تؤكد دراسات الحذف أن الاستدلال يتحسن بشكل كبير عندما يتم تخفيف التحديات الإدراكية، مما يكشف عن قنينة رقبة إدراكية حاسمة. يقدم إطارنا أداة تشخيص قيمة ويقترح أن فصل الإدراك (عبر وصفات غنية مستقلة عن المهمة) عن الاستدلال هو اتجاه واعد لتحقيق ذكاء بصري ثابت ومعمم.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp