منذ 6 أشهر

الملخص

العلاقات المكانية تمثل جزءًا أساسيًا من الإدراك البشري. ومع ذلك، تُعبَّر عنها في اللغة الطبيعية بطرق متنوعة، وقد أشارت الدراسات السابقة إلى أن النماذج الحالية التي تجمع بين الرؤية واللغة (VLMs) تواجه صعوبات في استيعاب المعلومات المتعلقة بالعلاقات. في هذه الورقة، نقدّم مجموعة بيانات تُسمى التفكير المكاني البصري (VSR)، التي تحتوي على أكثر من 10,000 زوجًا من النصوص الطبيعية والصور، وتشمل 66 نوعًا من العلاقات المكانية باللغة الإنجليزية (مثل: تحت، أمام، مواجهة). وعلى الرغم من استخدام تنسيق إنشاء تسميات بسيط ظاهريًا، نوضح كيف تضم المجموعة ظواهر لغوية صعبة، مثل التغير في الإطارات المرجعية. ونُظهر فجوة كبيرة بين أداء البشر والنماذج: حيث يتجاوز السقف البشري 95٪، بينما تحقق النماذج الرائدة حاليًا حوالي 70٪ فقط. ونلاحظ أن أداء النماذج حسب العلاقة لا يرتبط بشكل كبير بعدد الأمثلة التدريبية، كما أن النماذج المختبرة، بشكل عام، غير قادرة على التعرف على العلاقات المتعلقة باتجاهات الكائنات.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار