2ヶ月前

MapEval: 地理空間推論のためのマップベース評価

Mahir Labib Dihan, Md Tanvir Hassan, Md Tanvir Parvez, Md Hasebul Hasan, Md Almash Alam, Muhammad Aamir Cheema, Mohammed Eunus Ali, Md Rizwan Parvez
MapEval: 地理空間推論のためのマップベース評価
要約

最近の基盤モデルの進歩により、AIシステムの自律的なツール使用と推論能力が向上しています。しかし、日常生活を最適なナビゲーション、リソース発見の容易化、および物流の効率化によって改善する位置情報やマップベースの推論能力については、系統的に研究されていませんでした。このギャップを埋めるために、我々はMapEvalというベンチマークを導入します。MapEvalは、地理空間推論を必要とする多様で複雑なマップベースのユーザークエリを評価するために設計されています。MapEvalには、テキスト型、API型、視覚型の3つのタスクタイプが含まれており、これらのタスクではマップツールを通じて世界情報を収集し、異種の地理空間コンテキスト(例えば、固有名詞、移動距離、ユーザー評価やレビュー、画像)を処理し、合成的な推論を行う必要があります。これらはすべて最先端の基盤モデルにとって難易度が高い課題です。MapEvalは180都市と54カ国にわたる700問以上の独自の選択式質問から構成され、基盤モデルが空間関係、マップインフォグラフィックス、旅行計画、ナビゲーション課題を扱う能力を評価します。我々はMapEvalを使用して28種類の人気のある基盤モデルについて包括的な評価を行いました。単一のモデルが全てのタスクで優れた成績を収めたわけではありませんが、Claude-3.5-Sonnet(クラウド-3.5-ソンネット)、GPT-4o(ジーピーティー-4オ)、Gemini-1.5-Pro(ジェミナイ-1.5プロ)は全体的に競争力のあるパフォーマンスを示しました。特にMapEvalにおいては大きな性能差が見られました。Claude-3.5-Sonnetを使用したエージェントはGPT-4oとGemini-1.5-Proに対してそれぞれ16%と21%上回り、オープンソースLLMとの比較ではその差がさらに大きくなりました。詳細な分析結果によると、現在のモデルには強みと弱みがありますが、平均して人間のパフォーマンスに比べて20%以上劣っていることが明らかになりました。特に複雑なマップ画像や厳密な地理空間推論に苦戦しています。このギャップはMapEvalがより強い地理空間理解を持つ汎用的な基盤モデルを開発する上で重要な役割を果たしていることを示しています。

MapEval: 地理空間推論のためのマップベース評価 | 最新論文 | HyperAI超神経