HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 16 أيام

التحفيز المكاني البصري

التحفيز المكاني البصري

الملخص

إدراك العلاقات المكانية من المدخلات البصرية يُعدّ حجر الزاوية في الذكاء العام المُشبه للإنسان. حاولت دراسات سابقة تعزيز الوعي المكاني لنماذج الرؤية واللغة (VLMs) من خلال إضافة مشفرات خبراء إضافية، لكن هذا يُولّد تكاليف إضافية وغالبًا ما يُضرّ بالقدرات العامة. لتعزيز القدرة المكانية في الهياكل العامة، نقدّم "الضبط المكاني البصري" (VST)، وهو إطار شامل لتنمية نماذج الرؤية واللغة بقدرات مكانيّة بصرية مُشابهة للإنسان، بدءًا من الإدراك المكاني وصولاً إلى التفكير المكاني. نحن أول من حاول تعزيز الإدراك المكاني في نماذج VLMs من خلال إنشاء مجموعة بيانات كبيرة تُسمى VST-P، وتشمل 4.1 مليون عينة تغطي 19 مهارة تمتد من الصور الأحادية إلى الصور المتعددة والفيديوهات. ثم نقدّم VST-R، وهي مجموعة بيانات مُختارة تضم 135 ألف عينة تُوجّه النماذج لاستخدام التفكير المكاني. وبشكل خاص، نعتمد نموذج تدريب متدرج: تدريب مُراقب للتحسين الأولي لبناء المعرفة المكانية الأساسية، يتبعه التعلم المعزّز لتحسين مهارات التفكير المكاني بشكل أكبر. وبلا آثار جانبية على القدرات العامة، تحقق VST المُقترحة نتائج متقدمة بشكل مستمر على عدة معايير مكانية، بما في ذلك 34.8% على MMSI-Bench و61.2% على VSIBench. وقد أظهرت النتائج أن نماذج الرؤية واللغة والفعل (Vision-Language-Action) يمكن تعزيزها بشكل كبير باستخدام هذا النموذج الجديد للضبط المكاني، مما يفتح الطريق أمام ذكاء اصطناعي أكثر قاعدةً في الواقع الفيزيائي.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
التحفيز المكاني البصري | الأوراق البحثية | HyperAI