HyperAIHyperAI
vor 2 Monaten

MapEval: Eine kartografische Bewertung der geo-räumlichen Schlussfolgerungsfähigkeit in Grundmodellen

Mahir Labib Dihan, Md Tanvir Hassan, Md Tanvir Parvez, Md Hasebul Hasan, Md Almash Alam, Muhammad Aamir Cheema, Mohammed Eunus Ali, Md Rizwan Parvez
MapEval: Eine kartografische Bewertung der geo-räumlichen Schlussfolgerungsfähigkeit in Grundmodellen
Abstract

Neuere Fortschritte bei Grundmodellen haben die Fähigkeiten von KI-Systemen im Bereich der autonomen Werkzeugnutzung und des Schließens verbessert. Allerdings wurde ihre Leistungsfähigkeit im Orts- oder kartografischen Schließen – das durch die Optimierung der Navigation, die Förderung der Ressourcensuche und den Streamlining von Logistik das tägliche Leben verbessert – bisher nicht systematisch untersucht. Um diese Lücke zu schließen, stellen wir MapEval vor, einen Benchmark, der entwickelt wurde, um vielfältige und komplexe kartografische Benutzeranfragen mit geografischem Schließen zu bewerten. MapEval umfasst drei Aufgabentypen (textbasiert, API-basiert und visuell), die das Sammeln von Weltinformationen über Kartendienste, die Verarbeitung heterogener geografischer Kontexte (z.B. benannte Entitäten, Reisedistanzen, Benutzerbewertungen oder -bewertungen, Bilder) und das kombinatorische Schließen erfordern, wobei alle diese Aspekte für state-of-the-art-Grundmodelle herausfordernd sind. MapEval besteht aus 700 einzigartigen Multiple-Choice-Fragen zu Orten in 180 Städten und 54 Ländern und bewertet die Fähigkeit von Grundmodellen, räumliche Beziehungen, kartographische Infografiken, Reiseplanung und Navigationsprobleme zu behandeln. Mit Hilfe von MapEval führten wir eine umfassende Bewertung von 28 führenden Grundmodellen durch. Obwohl kein einzelnes Modell in allen Aufgaben hervorragte, zeigten Claude-3.5-Sonnet, GPT-4o und Gemini-1.5-Pro insgesamt wettbewerbsfähige Leistungen. Es zeigten sich jedoch erhebliche Leistungsunterschiede, insbesondere bei MapEval: Agenten mit Claude-3.5-Sonnet übertroffen GPT-4o und Gemini-1.5-Pro um jeweils 16 % und 21 %. Die Unterschiede wurden noch deutlicher im Vergleich zu quelloffenen LLMs (Large Language Models). Unsere detaillierte Analyse liefert Einblicke in die Stärken und Schwächen der aktuellen Modelle; dennoch fallen alle Modelle im Durchschnitt mehr als 20 % hinter menschliche Leistungen zurück, insbesondere bei komplexen Kartenbildern und strengem geografischem Schließen. Diese Lücke unterstreicht die zentrale Rolle von MapEval beim Vorrücken allgemeiner Grundmodelle mit stärkerer geografischer Verständnisfähigkeit.

MapEval: Eine kartografische Bewertung der geo-räumlichen Schlussfolgerungsfähigkeit in Grundmodellen | Neueste Forschungsarbeiten | HyperAI