HyperAIHyperAI

Command Palette

Search for a command to run...

منذ شهر واحد

ما مدى بُعد النماذج اللسانيّة البصريّة عن الذكاء البصري المكاني؟ منظور مدفوع بالاختبارات

ما مدى بُعد النماذج اللسانيّة البصريّة عن الذكاء البصري المكاني؟ منظور مدفوع بالاختبارات

الملخص

الاستدلال المكاني البصري (VSR) هو قدرة إدراكية بشرية أساسية، ويُعدّ شرطًا حاسمًا لتطوير الذكاء المُتَجسِّد والأنظمة المستقلة. وعلى الرغم من التقدم الأخير في نماذج الرؤية واللغة (VLMs)، يظل تحقيق مستوى استدلال مكاني بصري يُعادل مستوى الإنسان أمرًا بالغ الصعوبة، نظرًا لتعقيد تمثيل الفضاء ثلاثي الأبعاد واستدلاله. في هذا البحث، نقدّم دراسة منهجية لاستدلال المكان البصري في نماذج VLMs، تشمل مراجعة للمنهجيات الحالية عبر مختلف وسائط الإدخال، وبنية النموذج، واستراتيجيات التدريب، وآليات الاستدلال. بالإضافة إلى ذلك، نصنف الذكاء المكاني إلى ثلاث مستويات من القدرة: الإدراك الأساسي، والفهم المكاني، والتخطيط المكاني، ونُعدّ معيار SIBench، وهو معيار لتقييم الذكاء المكاني يشمل ما يقارب 20 مجموعة بيانات مفتوحة المصدر عبر 23 بيئة مهمة. أظهرت التجارب التي أُجريت على أحدث نماذج VLMs فجوة واضحة بين الإدراك والاستدلال، حيث تُظهر النماذج كفاءة في المهام الإدراكية الأساسية، لكنها تؤدي بأداء ضعيف بشكل متكرر في المهام المتعلقة بالفهم والتخطيط، خصوصًا في التقدير العددي، والاستدلال من زوايا متعددة، والديناميكية الزمنية، والتخيل المكاني. تُبرز هذه النتائج التحديات الكبيرة التي لا تزال قائمة في تحقيق الذكاء المكاني، مع تقديم خارطة طريق منهجية ومعيار شامل لدفع البحث المستقبلي في هذا المجال. يمكن الوصول إلى الموارد المرتبطة بهذا البحث من خلال الرابط التالي: https://sibench.github.io/Awesome-Visual-Spatial-Reasoning/.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
ما مدى بُعد النماذج اللسانيّة البصريّة عن الذكاء البصري المكاني؟ منظور مدفوع بالاختبارات | الأوراق البحثية | HyperAI