HyperAIHyperAI

Command Palette

Search for a command to run...

منذ يوم واحد

Spatial-SSRL: تحسين الفهم المكاني من خلال التعلم التكراري الذاتي التحفيز

Yuhong Liu Beichen Zhang Yuhang Zang Yuhang Cao Long Xing Xiaoyi Dong Haodong Duan Dahua Lin Jiaqi Wang

Spatial-SSRL: تحسين الفهم المكاني من خلال التعلم التكراري الذاتي التحفيز

الملخص

تظل الفهم المكاني ضعفًا في نماذج الرؤية واللغة الكبيرة (LVLMs). تعتمد طُرُق التدريب المُحدَّثة حسب الإشراف (SFT) الحالية، وكذلك خطوط أنابيب التعلم بالتعزيز ذات المكافآت القابلة للتحقق (RLVR) الحديثة، على إشراف مكلف، أو أدوات متخصصة، أو بيئات محدودة، مما يحد من قابليتها للتوسع. نقدّم نموذج "Spatial-SSRL"، وهو منهجية تعلم بالتعزيز ذاتية الإشراف، تستمد إشارات قابلة للتحقق مباشرة من الصور العادية من نوع RGB أو RGB-D. يُكوّن Spatial-SSRL تلقائيًا خمسة مهام وهمية تُمثّل البنية المكانية ثنائية وثلاثية الأبعاد: إعادة ترتيب شرائح مُختلطة، وتحديد شرائح مقلوبة، وملء شرائح مقطوعة، وترتيب الترتيب العمقي الإقليمي، وتنبؤ الموضع النسبي ثلاثي الأبعاد. توفر هذه المهام إجابات صحيحة مبنية على حقائق، وهي سهلة التحقق، ولا تتطلب أي تسمية من البشر أو من نماذج LVLM. يؤدي التدريب على مهامنا إلى تحسين كبير في القدرة على الاستدلال المكاني مع الحفاظ على القدرات البصرية العامة. على سبعة معايير للفهم المكاني في بيئات الصور والفيديوهات، حقق Spatial-SSRL مكاسب متوسطة في الدقة بلغت 4.63% (لنموذج 3B) و3.89% (لنموذج 7B) مقارنةً بنموذج Qwen2.5-VL كأساس. تُظهر نتائجنا أن الإشراف البسيط والداخلي يمكّن من تطبيق RLVR على نطاق واسع، ويوفّر طريقًا عمليًا لتعزيز القدرة المكانية في نماذج LVLMs.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
Spatial-SSRL: تحسين الفهم المكاني من خلال التعلم التكراري الذاتي التحفيز | الأوراق البحثية | HyperAI