الملخص

التطورات الحديثة في نماذج الأساس (foundation models) قد أImproved قدرات أنظمة الذكاء الاصطناعي في استخدام الأدوات بشكل مستقل والتفكير. ومع ذلك، لم يتم دراسة قدراتهم في التفكير القائم على الموقع أو الخريطة - والذي يحسن الحياة اليومية من خلال تحسين الملاحة وتسهيل اكتشاف الموارد وتوفير سلاسة في اللوجستيات - بشكل منهجي. لسد هذه الفجوة، نقدم MapEval، وهو معيار مصمم لتقييم استفسارات المستخدم المعقدة والمتنوعة التي تتطلب التفكير الجغرافي المكاني (geo-spatial reasoning). يتضمن MapEval ثلاثة أنواع من المهام (نصي، قائم على API، وبصري) تتطلب جمع المعلومات العالمية عبر أدوات الخرائط، معالجة سياقات جغرافية مكانية متنوعة (مثل الكيانات المسماة، المسافات المقطوعة، تقييمات المستخدمين أو تصنيفاتهم، الصور)، والتفكير التركيب (compositional reasoning)، وهي جميعها تحديات يجد فيها النماذج الرائدة صعوبة. يتكون MapEval من 700 سؤال متعدد الخيارات فريد حول مواقع في 180 مدينة و54 دولة، ويقيم قدرة نماذج الأساس على التعامل مع العلاقات المكانية، رسومات الخرائط الإيضاحية (infographics)، خطط السفر، والتحديات الملاحية. باستخدام MapEval، أجرينا تقييمًا شاملًا لنماذج الأساس البارزة البالغ عددها 28 نموذجًا. بينما لم يتميز أي نموذج بأداء متفوق في جميع المهام، حقق Claude-3.5-Sonnet وGPT-4o وGemini-1.5-Pro أداءً تنافسيًا بشكل عام. ومع ذلك، ظهرت فجوات كبيرة في الأداء خاصة في MapEval، حيث تفوقت الوكلاء التي تعمل بنموذج Claude-3.5-Sonnet على GPT-4o وGemini-1.5-Pro بنسبة 16% و21% على التوالي، وزادت هذه الفجوات بشكل أكبر عند مقارنتها بالنماذج اللغوية ذات المصدر المفتوح (LLMs). توفر تحليلاتنا التفصيلية رؤى حول نقاط القوة والضعف للنماذج الحالية، رغم أن جميع النماذج لا تزال تقل عن الأداء البشري بمعدل يزيد عن 20% على مستوى التعامل مع الصور الخريطية المعقدة والتفكير الجغرافي المكاني الدقيق. يسلط هذا الفارق الضوء على الدور الحاسم لـ MapEval في تعزيز النماذج العامة ذات الأساس بفهم جغرافي مكاني أقوى.

ملف PDF المصدر عرض الكود

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Command Palette

MapEval: تقييم مبني على الخرائط للمنطق المكاني في نماذج الأساس

Mahir Labib Dihan Md Tanvir Hassan Md Tanvir Parvez Md Hasebul Hasan Md Almash Alam Muhammad Aamir Cheema Mohammed Eunus Ali Md Rizwan Parvez

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

MapEval: تقييم مبني على الخرائط للمنطق المكاني في نماذج الأساس

Mahir Labib Dihan Md Tanvir Hassan Md Tanvir Parvez Md Hasebul Hasan Md Almash Alam Muhammad Aamir Cheema Mohammed Eunus Ali Md Rizwan Parvez

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

MapEval: تقييم مبني على الخرائط للمنطق المكاني في نماذج الأساس

Mahir Labib Dihan Md Tanvir Hassan Md Tanvir Parvez Md Hasebul Hasan Md Almash Alam Muhammad Aamir Cheema Mohammed Eunus Ali Md Rizwan Parvez

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters