HyperAIHyperAI

Command Palette

Search for a command to run...

MapEval: Eine kartografische Bewertung der geo-räumlichen Schlussfolgerungsfähigkeit in Grundmodellen

Mahir Labib Dihan Md Tanvir Hassan Md Tanvir Parvez Md Hasebul Hasan Md Almash Alam Muhammad Aamir Cheema Mohammed Eunus Ali Md Rizwan Parvez

Zusammenfassung

Neuere Fortschritte bei Grundmodellen haben die Fähigkeiten von KI-Systemen im Bereich der autonomen Werkzeugnutzung und des Schließens verbessert. Allerdings wurde ihre Leistungsfähigkeit im Orts- oder kartografischen Schließen – das durch die Optimierung der Navigation, die Förderung der Ressourcensuche und den Streamlining von Logistik das tägliche Leben verbessert – bisher nicht systematisch untersucht. Um diese Lücke zu schließen, stellen wir MapEval vor, einen Benchmark, der entwickelt wurde, um vielfältige und komplexe kartografische Benutzeranfragen mit geografischem Schließen zu bewerten. MapEval umfasst drei Aufgabentypen (textbasiert, API-basiert und visuell), die das Sammeln von Weltinformationen über Kartendienste, die Verarbeitung heterogener geografischer Kontexte (z.B. benannte Entitäten, Reisedistanzen, Benutzerbewertungen oder -bewertungen, Bilder) und das kombinatorische Schließen erfordern, wobei alle diese Aspekte für state-of-the-art-Grundmodelle herausfordernd sind. MapEval besteht aus 700 einzigartigen Multiple-Choice-Fragen zu Orten in 180 Städten und 54 Ländern und bewertet die Fähigkeit von Grundmodellen, räumliche Beziehungen, kartographische Infografiken, Reiseplanung und Navigationsprobleme zu behandeln. Mit Hilfe von MapEval führten wir eine umfassende Bewertung von 28 führenden Grundmodellen durch. Obwohl kein einzelnes Modell in allen Aufgaben hervorragte, zeigten Claude-3.5-Sonnet, GPT-4o und Gemini-1.5-Pro insgesamt wettbewerbsfähige Leistungen. Es zeigten sich jedoch erhebliche Leistungsunterschiede, insbesondere bei MapEval: Agenten mit Claude-3.5-Sonnet übertroffen GPT-4o und Gemini-1.5-Pro um jeweils 16 % und 21 %. Die Unterschiede wurden noch deutlicher im Vergleich zu quelloffenen LLMs (Large Language Models). Unsere detaillierte Analyse liefert Einblicke in die Stärken und Schwächen der aktuellen Modelle; dennoch fallen alle Modelle im Durchschnitt mehr als 20 % hinter menschliche Leistungen zurück, insbesondere bei komplexen Kartenbildern und strengem geografischem Schließen. Diese Lücke unterstreicht die zentrale Rolle von MapEval beim Vorrücken allgemeiner Grundmodelle mit stärkerer geografischer Verständnisfähigkeit.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp