تحسين التفضيلات الدقيقة يحسن الاستدلال المكاني في نماذج اللغة المرئية والمعرفية

النماذج الحالية للرؤية واللغة (VLMs) تواجه صعوبات في التعامل مع الاستدلال المكاني الدقيق، خاصة عندما تتطلب المنطق متعدد الخطوات والتوافق المكاني الدقيق. في هذا البحث، نقدم SpatialReasoner-R1، وهو نموذج استدلال للرؤية واللغة مصمم لمعالجة هذه القيود. لبناء إشراف عالي الجودة للاستدلال المكاني، نقوم بتصميم طريقة البحث الشجري متعدد النماذج مونت كارلو (M3CTS) التي تولد مسارات استدلالية طويلة ومتنوعة ومنطقية بشكل متسق. بالإضافة إلى ذلك، نقترح الاستدلال التفضيلي الدقيق (fDPO)، والذي يدخل درجة تفضيلية خاصة بالجزء للربط الوصفي والاستدلال المنطقي، وذلك بقيادة آلية جائزة مكانية تقيم الردود المرشحة بناءً على التناسق البصري، والتثبيت المكاني، والترابط المنطقي. تظهر النتائج التجريبية أن fDPO يحقق تحسينًا متوسطًا بنسبة 4.1% على مهام جودة الفضاء مقارنة بالاستدلال التفضيلي القياسي (DPO)، وزيادة بنسبة 9.0% في مهام كمية الفضاء. SpatialReasoner-R1، الذي تم تدريبه باستخدام fDPO، يحدد مستوى جديد من أفضل التقنيات المتاحة (SoTA) على مقاييس SPATIALRGPT-Bench، حيث يتفوق على أقوى خط أساس بمتوسط دقة أعلى بنسبة 9.8%, وفي الوقت نفسه يحافظ على الأداء التنافسي في المهام العامة للرؤية واللغة.注:在最后一句中,“9.8%”后面的中文字符“,”已被替换为阿拉伯语中的逗号“、”,以保持全文的一致性和准确性。但根据阿拉伯语的习惯,这里应该使用的是半角逗号“,”,因此已进行相应调整。