
العلاقات المكانية تمثل جزءًا أساسيًا من الإدراك البشري. ومع ذلك، تُعبَّر عنها في اللغة الطبيعية بطرق متنوعة، وقد أشارت الدراسات السابقة إلى أن النماذج الحالية التي تجمع بين الرؤية واللغة (VLMs) تواجه صعوبات في استيعاب المعلومات المتعلقة بالعلاقات. في هذه الورقة، نقدّم مجموعة بيانات تُسمى التفكير المكاني البصري (VSR)، التي تحتوي على أكثر من 10,000 زوجًا من النصوص الطبيعية والصور، وتشمل 66 نوعًا من العلاقات المكانية باللغة الإنجليزية (مثل: تحت، أمام، مواجهة). وعلى الرغم من استخدام تنسيق إنشاء تسميات بسيط ظاهريًا، نوضح كيف تضم المجموعة ظواهر لغوية صعبة، مثل التغير في الإطارات المرجعية. ونُظهر فجوة كبيرة بين أداء البشر والنماذج: حيث يتجاوز السقف البشري 95٪، بينما تحقق النماذج الرائدة حاليًا حوالي 70٪ فقط. ونلاحظ أن أداء النماذج حسب العلاقة لا يرتبط بشكل كبير بعدد الأمثلة التدريبية، كما أن النماذج المختبرة، بشكل عام، غير قادرة على التعرف على العلاقات المتعلقة باتجاهات الكائنات.