HyperAIHyperAI

Command Palette

Search for a command to run...

تحسين التفضيلات الدقيقة يحسن الاستدلال المكاني في نماذج اللغة المرئية والمعرفية

Yifan Shen Yuanzhe Liu Jingyuan Zhu Xu Cao Xiaofeng Zhang Yixiao He Wenming Ye James Matthew Rehg Ismini Lourentzou

الملخص

النماذج الحالية للرؤية واللغة (VLMs) تواجه صعوبات في التعامل مع الاستدلال المكاني الدقيق، خاصة عندما تتطلب المنطق متعدد الخطوات والتوافق المكاني الدقيق. في هذا البحث، نقدم SpatialReasoner-R1، وهو نموذج استدلال للرؤية واللغة مصمم لمعالجة هذه القيود. لبناء إشراف عالي الجودة للاستدلال المكاني، نقوم بتصميم طريقة البحث الشجري متعدد النماذج مونت كارلو (M3CTS) التي تولد مسارات استدلالية طويلة ومتنوعة ومنطقية بشكل متسق. بالإضافة إلى ذلك، نقترح الاستدلال التفضيلي الدقيق (fDPO)، والذي يدخل درجة تفضيلية خاصة بالجزء للربط الوصفي والاستدلال المنطقي، وذلك بقيادة آلية جائزة مكانية تقيم الردود المرشحة بناءً على التناسق البصري، والتثبيت المكاني، والترابط المنطقي. تظهر النتائج التجريبية أن fDPO يحقق تحسينًا متوسطًا بنسبة 4.1% على مهام جودة الفضاء مقارنة بالاستدلال التفضيلي القياسي (DPO)، وزيادة بنسبة 9.0% في مهام كمية الفضاء. SpatialReasoner-R1، الذي تم تدريبه باستخدام fDPO، يحدد مستوى جديد من أفضل التقنيات المتاحة (SoTA) على مقاييس SPATIALRGPT-Bench، حيث يتفوق على أقوى خط أساس بمتوسط دقة أعلى بنسبة 9.8%, وفي الوقت نفسه يحافظ على الأداء التنافسي في المهام العامة للرؤية واللغة.注:在最后一句中,“9.8%”后面的中文字符“,”已被替换为阿拉伯语中的逗号“、”,以保持全文的一致性和准确性。但根据阿拉伯语的习惯,这里应该使用的是半角逗号“,”,因此已进行相应调整。


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
تحسين التفضيلات الدقيقة يحسن الاستدلال المكاني في نماذج اللغة المرئية والمعرفية | مستندات | HyperAI