HyperAIHyperAI

Command Palette

Search for a command to run...

MapEval: تقييم مبني على الخرائط للمنطق المكاني في نماذج الأساس

Mahir Labib Dihan Md Tanvir Hassan Md Tanvir Parvez Md Hasebul Hasan Md Almash Alam Muhammad Aamir Cheema Mohammed Eunus Ali Md Rizwan Parvez

الملخص

التطورات الحديثة في نماذج الأساس (foundation models) قد أImproved قدرات أنظمة الذكاء الاصطناعي في استخدام الأدوات بشكل مستقل والتفكير. ومع ذلك، لم يتم دراسة قدراتهم في التفكير القائم على الموقع أو الخريطة - والذي يحسن الحياة اليومية من خلال تحسين الملاحة وتسهيل اكتشاف الموارد وتوفير سلاسة في اللوجستيات - بشكل منهجي. لسد هذه الفجوة، نقدم MapEval، وهو معيار مصمم لتقييم استفسارات المستخدم المعقدة والمتنوعة التي تتطلب التفكير الجغرافي المكاني (geo-spatial reasoning). يتضمن MapEval ثلاثة أنواع من المهام (نصي، قائم على API، وبصري) تتطلب جمع المعلومات العالمية عبر أدوات الخرائط، معالجة سياقات جغرافية مكانية متنوعة (مثل الكيانات المسماة، المسافات المقطوعة، تقييمات المستخدمين أو تصنيفاتهم، الصور)، والتفكير التركيب (compositional reasoning)، وهي جميعها تحديات يجد فيها النماذج الرائدة صعوبة. يتكون MapEval من 700 سؤال متعدد الخيارات فريد حول مواقع في 180 مدينة و54 دولة، ويقيم قدرة نماذج الأساس على التعامل مع العلاقات المكانية، رسومات الخرائط الإيضاحية (infographics)، خطط السفر، والتحديات الملاحية. باستخدام MapEval، أجرينا تقييمًا شاملًا لنماذج الأساس البارزة البالغ عددها 28 نموذجًا. بينما لم يتميز أي نموذج بأداء متفوق في جميع المهام، حقق Claude-3.5-Sonnet وGPT-4o وGemini-1.5-Pro أداءً تنافسيًا بشكل عام. ومع ذلك، ظهرت فجوات كبيرة في الأداء خاصة في MapEval، حيث تفوقت الوكلاء التي تعمل بنموذج Claude-3.5-Sonnet على GPT-4o وGemini-1.5-Pro بنسبة 16% و21% على التوالي، وزادت هذه الفجوات بشكل أكبر عند مقارنتها بالنماذج اللغوية ذات المصدر المفتوح (LLMs). توفر تحليلاتنا التفصيلية رؤى حول نقاط القوة والضعف للنماذج الحالية، رغم أن جميع النماذج لا تزال تقل عن الأداء البشري بمعدل يزيد عن 20% على مستوى التعامل مع الصور الخريطية المعقدة والتفكير الجغرافي المكاني الدقيق. يسلط هذا الفارق الضوء على الدور الحاسم لـ MapEval في تعزيز النماذج العامة ذات الأساس بفهم جغرافي مكاني أقوى.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp