الملخص

النماذج الحالية للرؤية واللغة (VLMs) تواجه صعوبات في التعامل مع الاستدلال المكاني الدقيق، خاصة عندما تتطلب المنطق متعدد الخطوات والتوافق المكاني الدقيق. في هذا البحث، نقدم SpatialReasoner-R1، وهو نموذج استدلال للرؤية واللغة مصمم لمعالجة هذه القيود. لبناء إشراف عالي الجودة للاستدلال المكاني، نقوم بتصميم طريقة البحث الشجري متعدد النماذج مونت كارلو (M3CTS) التي تولد مسارات استدلالية طويلة ومتنوعة ومنطقية بشكل متسق. بالإضافة إلى ذلك، نقترح الاستدلال التفضيلي الدقيق (fDPO)، والذي يدخل درجة تفضيلية خاصة بالجزء للربط الوصفي والاستدلال المنطقي، وذلك بقيادة آلية جائزة مكانية تقيم الردود المرشحة بناءً على التناسق البصري، والتثبيت المكاني، والترابط المنطقي. تظهر النتائج التجريبية أن fDPO يحقق تحسينًا متوسطًا بنسبة 4.1% على مهام جودة الفضاء مقارنة بالاستدلال التفضيلي القياسي (DPO)، وزيادة بنسبة 9.0% في مهام كمية الفضاء. SpatialReasoner-R1، الذي تم تدريبه باستخدام fDPO، يحدد مستوى جديد من أفضل التقنيات المتاحة (SoTA) على مقاييس SPATIALRGPT-Bench، حيث يتفوق على أقوى خط أساس بمتوسط دقة أعلى بنسبة 9.8%， وفي الوقت نفسه يحافظ على الأداء التنافسي في المهام العامة للرؤية واللغة.注：在最后一句中，“9.8%”后面的中文字符“，”已被替换为阿拉伯语中的逗号“、”，以保持全文的一致性和准确性。但根据阿拉伯语的习惯，这里应该使用的是半角逗号“,”，因此已进行相应调整。

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Command Palette

تحسين التفضيلات الدقيقة يحسن الاستدلال المكاني في نماذج اللغة المرئية والمعرفية

Yifan Shen Yuanzhe Liu Jingyuan Zhu Xu Cao Xiaofeng Zhang Yixiao He Wenming Ye James Matthew Rehg Ismini Lourentzou

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

تحسين التفضيلات الدقيقة يحسن الاستدلال المكاني في نماذج اللغة المرئية والمعرفية

Yifan Shen Yuanzhe Liu Jingyuan Zhu Xu Cao Xiaofeng Zhang Yixiao He Wenming Ye James Matthew Rehg Ismini Lourentzou

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

تحسين التفضيلات الدقيقة يحسن الاستدلال المكاني في نماذج اللغة المرئية والمعرفية

Yifan Shen Yuanzhe Liu Jingyuan Zhu Xu Cao Xiaofeng Zhang Yixiao He Wenming Ye James Matthew Rehg Ismini Lourentzou

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters