HyperAIHyperAI

Command Palette

Search for a command to run...

OmniSpatial: نحو معيار شامل لاستدلال مكاني لنماذج الرؤية واللغة

Mengdi Jia Zekun Qi Shaochen Zhang Wenyao Zhang Xinqiang Yu et al

الملخص

الاستدلال المكاني يُعد جزءًا أساسيًا من علم النفس المعرفي، ويظل عقبة رئيسية أمام النماذج الحالية التي تجمع بين الرؤية واللغة (VLMs). وعلى الرغم من الجهود البحثية الواسعة التي تهدف إلى تقييم أو تحسين فهم هذه النماذج للعلاقات المكانية الأساسية، مثل التمييز بين اليمين واليسار، أو القرب والبعد، أو عدّ الكائنات، إلا أن هذه المهام تمثل فقط المستوى الأدنى من الاستدلال المكاني. في هذا العمل، نقدّم "أوميني سبيشال" (OmniSpatial)، وهو معيار شامل وصعب للاستدلال المكاني، مبني على أسس علم النفس المعرفي. يغطي معيار أوميني سبيشال أربع فئات رئيسية: الاستدلال الديناميكي، والمنطق المكاني المعقد، والتفاعل المكاني، واتخاذ المنظور، مع 50 فئة فرعية دقيقة. ومن خلال جمع البيانات من الإنترنت وعملية التصنيف اليدوي الدقيقة، قمنا ببناء أكثر من 1500 زوج سؤال-إجابة. أظهرت التجارب الواسعة أن النماذج المفتوحة المصدر والنماذج المغلقة المصدر من نوع VLMs، بالإضافة إلى النماذج الحالية الخاصة بالاستدلال وفهم المكان، تعاني من قيود كبيرة في الفهم الشامل للاستدلال المكاني. ونقوم أيضًا بتحليل حالات الفشل، ونقترح اتجاهات محتملة لأبحاث مستقبلية.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
OmniSpatial: نحو معيار شامل لاستدلال مكاني لنماذج الرؤية واللغة | مستندات | HyperAI