
الملخص
إدراك العلاقات المكانية من المدخلات البصرية يُعدّ حجر الزاوية في الذكاء العام المُشبه للإنسان. حاولت دراسات سابقة تعزيز الوعي المكاني لنماذج الرؤية واللغة (VLMs) من خلال إضافة مشفرات خبراء إضافية، لكن هذا يُولّد تكاليف إضافية وغالبًا ما يُضرّ بالقدرات العامة. لتعزيز القدرة المكانية في الهياكل العامة، نقدّم "الضبط المكاني البصري" (VST)، وهو إطار شامل لتنمية نماذج الرؤية واللغة بقدرات مكانيّة بصرية مُشابهة للإنسان، بدءًا من الإدراك المكاني وصولاً إلى التفكير المكاني. نحن أول من حاول تعزيز الإدراك المكاني في نماذج VLMs من خلال إنشاء مجموعة بيانات كبيرة تُسمى VST-P، وتشمل 4.1 مليون عينة تغطي 19 مهارة تمتد من الصور الأحادية إلى الصور المتعددة والفيديوهات. ثم نقدّم VST-R، وهي مجموعة بيانات مُختارة تضم 135 ألف عينة تُوجّه النماذج لاستخدام التفكير المكاني. وبشكل خاص، نعتمد نموذج تدريب متدرج: تدريب مُراقب للتحسين الأولي لبناء المعرفة المكانية الأساسية، يتبعه التعلم المعزّز لتحسين مهارات التفكير المكاني بشكل أكبر. وبلا آثار جانبية على القدرات العامة، تحقق VST المُقترحة نتائج متقدمة بشكل مستمر على عدة معايير مكانية، بما في ذلك 34.8% على MMSI-Bench و61.2% على VSIBench. وقد أظهرت النتائج أن نماذج الرؤية واللغة والفعل (Vision-Language-Action) يمكن تعزيزها بشكل كبير باستخدام هذا النموذج الجديد للضبط المكاني، مما يفتح الطريق أمام ذكاء اصطناعي أكثر قاعدةً في الواقع الفيزيائي.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.