Command Palette
Search for a command to run...
OmniSpatial: نحو معيار شامل لاستدلال مكاني لنماذج الرؤية واللغة
OmniSpatial: نحو معيار شامل لاستدلال مكاني لنماذج الرؤية واللغة
Mengdi Jia Zekun Qi Shaochen Zhang Wenyao Zhang Xinqiang Yu et al
الملخص
الاستدلال المكاني يُعد جزءًا أساسيًا من علم النفس المعرفي، ويظل عقبة رئيسية أمام النماذج الحالية التي تجمع بين الرؤية واللغة (VLMs). وعلى الرغم من الجهود البحثية الواسعة التي تهدف إلى تقييم أو تحسين فهم هذه النماذج للعلاقات المكانية الأساسية، مثل التمييز بين اليمين واليسار، أو القرب والبعد، أو عدّ الكائنات، إلا أن هذه المهام تمثل فقط المستوى الأدنى من الاستدلال المكاني. في هذا العمل، نقدّم "أوميني سبيشال" (OmniSpatial)، وهو معيار شامل وصعب للاستدلال المكاني، مبني على أسس علم النفس المعرفي. يغطي معيار أوميني سبيشال أربع فئات رئيسية: الاستدلال الديناميكي، والمنطق المكاني المعقد، والتفاعل المكاني، واتخاذ المنظور، مع 50 فئة فرعية دقيقة. ومن خلال جمع البيانات من الإنترنت وعملية التصنيف اليدوي الدقيقة، قمنا ببناء أكثر من 1500 زوج سؤال-إجابة. أظهرت التجارب الواسعة أن النماذج المفتوحة المصدر والنماذج المغلقة المصدر من نوع VLMs، بالإضافة إلى النماذج الحالية الخاصة بالاستدلال وفهم المكان، تعاني من قيود كبيرة في الفهم الشامل للاستدلال المكاني. ونقوم أيضًا بتحليل حالات الفشل، ونقترح اتجاهات محتملة لأبحاث مستقبلية.