HyperAIHyperAI
منذ 2 أشهر

MapEval: تقييم مبني على الخرائط للمنطق المكاني في نماذج الأساس

Mahir Labib Dihan, Md Tanvir Hassan, Md Tanvir Parvez, Md Hasebul Hasan, Md Almash Alam, Muhammad Aamir Cheema, Mohammed Eunus Ali, Md Rizwan Parvez
MapEval: تقييم مبني على الخرائط للمنطق المكاني في نماذج الأساس
الملخص

التطورات الحديثة في نماذج الأساس (foundation models) قد أImproved قدرات أنظمة الذكاء الاصطناعي في استخدام الأدوات بشكل مستقل والتفكير. ومع ذلك، لم يتم دراسة قدراتهم في التفكير القائم على الموقع أو الخريطة - والذي يحسن الحياة اليومية من خلال تحسين الملاحة وتسهيل اكتشاف الموارد وتوفير سلاسة في اللوجستيات - بشكل منهجي. لسد هذه الفجوة، نقدم MapEval، وهو معيار مصمم لتقييم استفسارات المستخدم المعقدة والمتنوعة التي تتطلب التفكير الجغرافي المكاني (geo-spatial reasoning). يتضمن MapEval ثلاثة أنواع من المهام (نصي، قائم على API، وبصري) تتطلب جمع المعلومات العالمية عبر أدوات الخرائط، معالجة سياقات جغرافية مكانية متنوعة (مثل الكيانات المسماة، المسافات المقطوعة، تقييمات المستخدمين أو تصنيفاتهم، الصور)، والتفكير التركيب (compositional reasoning)، وهي جميعها تحديات يجد فيها النماذج الرائدة صعوبة. يتكون MapEval من 700 سؤال متعدد الخيارات فريد حول مواقع في 180 مدينة و54 دولة، ويقيم قدرة نماذج الأساس على التعامل مع العلاقات المكانية، رسومات الخرائط الإيضاحية (infographics)، خطط السفر، والتحديات الملاحية. باستخدام MapEval، أجرينا تقييمًا شاملًا لنماذج الأساس البارزة البالغ عددها 28 نموذجًا. بينما لم يتميز أي نموذج بأداء متفوق في جميع المهام، حقق Claude-3.5-Sonnet وGPT-4o وGemini-1.5-Pro أداءً تنافسيًا بشكل عام. ومع ذلك، ظهرت فجوات كبيرة في الأداء خاصة في MapEval، حيث تفوقت الوكلاء التي تعمل بنموذج Claude-3.5-Sonnet على GPT-4o وGemini-1.5-Pro بنسبة 16% و21% على التوالي، وزادت هذه الفجوات بشكل أكبر عند مقارنتها بالنماذج اللغوية ذات المصدر المفتوح (LLMs). توفر تحليلاتنا التفصيلية رؤى حول نقاط القوة والضعف للنماذج الحالية، رغم أن جميع النماذج لا تزال تقل عن الأداء البشري بمعدل يزيد عن 20% على مستوى التعامل مع الصور الخريطية المعقدة والتفكير الجغرافي المكاني الدقيق. يسلط هذا الفارق الضوء على الدور الحاسم لـ MapEval في تعزيز النماذج العامة ذات الأساس بفهم جغرافي مكاني أقوى.

MapEval: تقييم مبني على الخرائط للمنطق المكاني في نماذج الأساس | أحدث الأوراق البحثية | HyperAI