HyperAIHyperAI

Command Palette

Search for a command to run...

الاستدلال المكاني البصري

Fangyu Liu Guy Emerson Nigel Collier

الملخص

العلاقات المكانية تمثل جزءًا أساسيًا من الإدراك البشري. ومع ذلك، تُعبَّر عنها في اللغة الطبيعية بطرق متنوعة، وقد أشارت الدراسات السابقة إلى أن النماذج الحالية التي تجمع بين الرؤية واللغة (VLMs) تواجه صعوبات في استيعاب المعلومات المتعلقة بالعلاقات. في هذه الورقة، نقدّم مجموعة بيانات تُسمى التفكير المكاني البصري (VSR)، التي تحتوي على أكثر من 10,000 زوجًا من النصوص الطبيعية والصور، وتشمل 66 نوعًا من العلاقات المكانية باللغة الإنجليزية (مثل: تحت، أمام، مواجهة). وعلى الرغم من استخدام تنسيق إنشاء تسميات بسيط ظاهريًا، نوضح كيف تضم المجموعة ظواهر لغوية صعبة، مثل التغير في الإطارات المرجعية. ونُظهر فجوة كبيرة بين أداء البشر والنماذج: حيث يتجاوز السقف البشري 95٪، بينما تحقق النماذج الرائدة حاليًا حوالي 70٪ فقط. ونلاحظ أن أداء النماذج حسب العلاقة لا يرتبط بشكل كبير بعدد الأمثلة التدريبية، كما أن النماذج المختبرة، بشكل عام، غير قادرة على التعرف على العلاقات المتعلقة باتجاهات الكائنات.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
الاستدلال المكاني البصري | مستندات | HyperAI