Command Palette
Search for a command to run...
الاستدلال المكاني باستخدام نماذج الرؤية واللغة في المشاهد متعددة الزوايا من منظور الذات
Mohsen Gholami Ahmad Rezaei Zhou Weimin Yong Zhang Mohammad Akbari

الملخص
تظل فهم العلاقات الفضائية الثلاثية الأبعاد (3D) من أبرز القيود التي تواجه النماذج الحالية للرؤية واللغة (VLMs). وسعت الدراسات السابقة إلى معالجة هذه المشكلة من خلال إنشاء مجموعات بيانات لأسئلة الإجابة حول المكان (QA) استنادًا إلى صور فردية أو مقاطع فيديو داخلية. غير أن الوكلاء الذاتيين في الذكاء الاصطناعي الحقيقي، مثل الروبوتات والسيارات ذاتية القيادة، يعتمدون عادةً على ملاحظات مركّزة حول الذات (ego-centric) ومتعددة الزوايا. وللإجابة على هذا التحدي، نقدّم "Ego3D-Bench"، معيارًا جديدًا مصممًا لتقييم قدرات النماذج الحالية للرؤية واللغة في التفكير المكاني باستخدام بيانات خارجية مركّزة حول الذات ومتعددة الزوايا. يتكوّن Ego3D-Bench من أكثر من 8600 زوجًا من الأسئلة والإجابات، تم إنشاؤه بمشاركة واسعة من المُعلّقين البشريين لضمان الجودة والتنوع. قمنا بتجريب 16 نموذجًا من أحدث النماذج (SOTA) في مجال VLMs، بما في ذلك GPT-4o وGemini1.5-Pro وInternVL3 وQwen2.5-VL. أظهرت النتائج فجوة أداء ملحوظة بين متوسطات الأداء البشري ونتائج النماذج الحالية، ما يُبرز أن النماذج الحالية لا تزال تُعاني من نقص في الفهم المكاني البشري. ولسد هذه الفجوة، نقترح إطارًا تدريبيًا مُعدّلًا بعدها يُسمى Ego3D-VLM، يُعزز من قدرة النماذج الحالية للرؤية واللغة في التفكير المكاني ثلاثي الأبعاد. يُولّد Ego3D-VLM خريطة معرفية (cognitive map) استنادًا إلى إحداثيات 3D عالمية مُقدّرة، ما أدى إلى تحسين متوسط قدره 12% في اختبارات الأسئلة متعددة الخيارات، وتحسين متوسط قدره 56% في تقدير المسافات المطلقة. يمتاز Ego3D-VLM ببنية معيارية (modular)، ويمكن دمجه مع أي نموذج VLM موجود. جماعيًا، يُقدّم Ego3D-Bench وEgo3D-VLM أدوات قيّمة لدفع التقدّم نحو تحقيق فهم مكاني بشرية في البيئات الواقعية متعددة الزوايا.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.