MapEval : Une Évaluation Basée sur les Cartes de la Raisonnement Géospatial dans les Modèles Fondamentaux

Les récentes avancées dans les modèles de base ont amélioré les capacités des systèmes d'IA en matière d'utilisation autonome d'outils et de raisonnement. Cependant, leur aptitude au raisonnement basé sur l'emplacement ou les cartes – qui optimise la vie quotidienne en améliorant la navigation, en facilitant la découverte de ressources et en rationalisant la logistique – n'a pas été étudiée de manière systématique. Pour combler cette lacune, nous présentons MapEval, un benchmark conçu pour évaluer des requêtes utilisateur diverses et complexes nécessitant du raisonnement géospatial. MapEval comprend trois types de tâches (textuelles, basées sur API et visuelles) qui exigent la collecte d'informations mondiales via des outils cartographiques, le traitement de contextes géospatiaux hétérogènes (par exemple, entités nommées, distances de voyage, avis ou notes d'utilisateurs, images) et le raisonnement compositionnel, tous des défis pour les modèles de base les plus performants actuellement disponibles. Constitué de 700 questions à choix multiples uniques portant sur des emplacements dans 180 villes et 54 pays, MapEval évalue la capacité des modèles de base à gérer les relations spatiales, les infographies cartographiques, la planification de voyages et les défis de navigation. À l'aide de MapEval, nous avons mené une évaluation complète de 28 modèles de base notables. Bien que aucun modèle ne se soit distingué dans toutes les tâches, Claude-3.5-Sonnet, GPT-4o et Gemini-1.5-Pro ont obtenu des performances compétitives globalement. Cependant, des écarts importants sont apparus, notamment dans MapEval, où Claude-3.5-Sonnet a surpassé GPT-4o et Gemini-1.5-Pro respectivement de 16 % et 21 % ; ces écarts se sont encore accentués lorsqu'on les compare aux LLMs open source (LLMs). Nos analyses détaillées offrent des perspectives sur les forces et faiblesses des modèles actuels, bien que tous soient encore largement en dessous des performances humaines moyennes (plus de 20 %), éprouvant des difficultés avec des images cartographiques complexes et un raisonnement géospatial rigoureux. Ce fossé souligne le rôle crucial de MapEval dans l'avancement des modèles de base à usage général dotés d'une compréhension géospatiale plus solide.